Agent & LLM · 2026年6月25日
每日论文速递 · Agent & LLM
💡 一句话:这篇直接拆 agentic model 训练数据怎么做,用 100+ ablation 找数据来源、多样性、pipeline 各环节的真实贡献,并开源 100K agent 训练集。
📄 每日论文速递 · Agent & LLM
日期:2026-06-25
1. OpenThoughts-Agent: Data Recipes for Agentic Models
OpenThoughts-Agent:面向 Agent 模型的数据配方
🔗 https://arxiv.org/abs/2606.24855
💡 一句话:这篇直接拆 agentic model 训练数据怎么做,用 100+ ablation 找数据来源、多样性、pipeline 各环节的真实贡献,并开源 100K agent 训练集。
🎯 关联:很高。Anna 做 Agent 平台时别只盯 framework,这篇提醒核心壁垒之一是“可泛化的 agent 行为数据生产线”。
2. Are We Ready For An Agent-Native Memory System?
我们准备好 Agent 原生 Memory 系统了吗?
🔗 https://arxiv.org/abs/2606.24775
💡 一句话:把 Agent memory 拆成存储表示、抽取、检索路由、维护四个模块,系统评测 12 类 memory 架构,结论是没有银弹,memory 要按 workload 设计。
🎯 关联:非常高。这篇和 InternOS / Agent 平台的长期记忆、承诺跟踪、上下文治理直接相关,值得细读。
3. SHERLOC: Structured Diagnostic Localization for Code Repair Agents
SHERLOC:面向代码修复 Agent 的结构化诊断定位
🔗 https://arxiv.org/abs/2606.24820
💡 一句话:不是简单找 bug 文件,而是给 repair agent 产出“可执行诊断上下文”,在 SWE-Bench Verified 上提升修复率并显著省 token。
🎯 关联:很高。如果 Anna 后面做代码生成 / 自动修复类 Agent,这篇的核心点是:定位结果必须服务后续 action,不是 benchmark retrieval 游戏。
4. Agon: An Autonomous Large-Scale Omnidisciplinary Research System Built on Prompt Economy
Agon:基于 Prompt Economy 的大规模自主研究系统
🔗 https://arxiv.org/abs/2606.24177
💡 一句话:提出一个研究编排器,让机器规模化产出和验证可检查部分,把不可自动判断的地方留给人类科学家。
🎯 关联:高。这是典型 “human steers, machine scales” 架构,对 Anna 做组织协调系统很有参考价值:系统别替人决策,要放大人的判断。
5. Grading the Grader: Lessons from Evaluating an Agentic Data Analysis System
给评分器打分:评估 Agentic 数据分析系统的经验教训
🔗 https://arxiv.org/abs/2606.24839
💡 一句话:评估 Agent 输出不能只靠一个 LLM judge,它提出 regex、LLM lenient grading、人类抽检的三层 grading cascade。
🎯 关联:高。Agent 平台一定会踩评测坑;这篇很实用,尤其适合设计 InternOS 里任务完成度、承诺履约、结果可信度的评价链路。
6. World Models in Pieces: Structural Certification for General Agents
碎片化世界模型:通用 Agent 的结构化认证
🔗 https://arxiv.org/abs/2606.24842
💡 一句话:它不再追求“Agent 全局可靠”,而是证明 Agent 在哪些局部 transition / planning bottleneck 上可靠。
🎯 关联:中高。对生产级 Agent 很关键:别承诺系统全能,要能标注哪些环节可信、哪些环节必须 fallback 或 human-in-loop。
7. Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability of Large Language Models under Fog of War
Age of LLM:迷雾战争下测试 LLM 推理、外交和可靠性的 1v1 策略基准
🔗 https://arxiv.org/abs/2606.24391
💡 一句话:用战争迷雾、外交消息、严格 JSON action 规则测试 LLM 的 belief tracking、协商、可靠执行能力。
🎯 关联:中高。对多 Agent 协作很有启发:真实系统失败常常不是“不会推理”,而是状态跟踪错、schema 不稳、协商不落地。
8. Emergent Relational Order in LLM Agent Societies: From Collective Affect to Authority Stratification
LLM Agent 社会中的关系秩序涌现:从集体情感到权威分层
🔗 https://arxiv.org/abs/2606.23764
💡 一句话:构建长期多 Agent 社会模拟,让身份、情绪、伦理和资源分配互动,观察劳动分工、关系衰减、权威分层等结构涌现。
🎯 关联:中等偏高。不是工程框架论文,但对 InternOS 的组织行为建模有价值:长期协作系统里“关系结构”会自己长出来,不能只建任务队列。