Agent & LLM · 2026年6月24日
每日论文速递 · Agent & LLM
💡 一句话:这篇直接拆 agent 模型训练数据 pipeline,做了 100+ ablation,并发布 100K agent 训练样本,核心价值是告诉你“什么数据真的能训出更会用工具/做任务的 agent”。
📄 每日论文速递 · Agent & LLM
日期:2026-06-24
1. OpenThoughts-Agent:面向 Agentic Models 的数据配方
OpenThoughts-Agent: Data Recipes for Agentic Models
🔗 https://arxiv.org/abs/2606.24855
💡 一句话:这篇直接拆 agent 模型训练数据 pipeline,做了 100+ ablation,并发布 100K agent 训练样本,核心价值是告诉你“什么数据真的能训出更会用工具/做任务的 agent”。
🎯 关联:非常高。Anna 做 Agent 平台时,不能只看 orchestration,也要知道底层模型能力如何被数据塑形;这篇对后续做 agent benchmark / fine-tuning strategy 很有参考价值。
2. 我们准备好 Agent-Native Memory System 了吗?
Are We Ready For An Agent-Native Memory System?
🔗 https://arxiv.org/abs/2606.24775
💡 一句话:把 agent memory 从“RAG 黑盒”拆成 representation/storage、extraction、retrieval/routing、maintenance 四个模块,并系统比较 12 类 memory system。
🎯 关联:极高。InternOS 的长期上下文、承诺跟踪、组织记忆都绕不开 memory lifecycle;这篇基本是在给 Anna 的 memory layer 提供评估框架。
3. SHERLOC:面向代码修复 Agent 的结构化诊断定位
SHERLOC: Structured Diagnostic Localization for Code Repair Agents
🔗 https://arxiv.org/abs/2606.24820
💡 一句话:它不急着让 coding agent 改代码,而是先用结构化 hypothesis + repo tools 做 fault localization,把 SWE-Bench 修复成功率平均拉高 5.95 个百分点,同时省 token。
🎯 关联:很高。对软件工程 AI 很实用:agent 平台里“先诊断、再行动”的 workflow 设计,比盲目 ReAct 循环更靠谱。
4. Agon:基于 Prompt Economy 的自主大规模跨学科研究系统
Agon: An Autonomous Large-Scale Omnidisciplinary Research System Built on Prompt Economy
🔗 https://arxiv.org/abs/2606.24177
💡 一句话:提出一个大规模研究 orchestrator,让机器负责批量产出和可验证部分,人类负责不可自动判断的 claim steering。
🎯 关联:高。它和 Anna 的 Agent 平台/InternOS 都关心“机器规模化执行 + 人类治理判断”的边界,尤其适合参考其 failure taxonomy。
5. 评估评估器:Agentic 数据分析系统评测经验
Grading the Grader: Lessons from Evaluating an Agentic Data Analysis System
🔗 https://arxiv.org/abs/2606.24839
💡 一句话:研究如何可靠评估 agentic data analysis 输出,提出 regex、LLM lenient grading、人类 snippet inspection 的三层 grading cascade。
🎯 关联:高。Anna 做平台一定会撞上“agent 输出怎么判定对错”的问题;这篇的价值不在模型,而在 evaluator architecture。
6. LLM Agent 社会中的关系秩序涌现:从集体情感到权威分层
Emergent Relational Order in LLM Agent Societies: From Collective Affect to Authority Stratification
🔗 https://arxiv.org/abs/2606.23764
💡 一句话:用 CAREB-MAS 多智能体框架模拟长期社会互动,观察劳动分工、关系衰减、权威结构等宏观秩序如何从 agent 交互中涌现。
🎯 关联:中高。不是工程平台论文,但对 InternOS 的组织协调系统很有启发:组织结构不是配置出来的,是交互规则长期跑出来的。
7. Age of LLM:战争迷雾下推理、外交与可靠性的战略 1v1 Benchmark
Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability of Large Language Models under Fog of War
🔗 https://arxiv.org/abs/2606.24391
💡 一句话:构造带战争迷雾、外交消息、严格 JSON action schema 的对抗环境,用非法动作率和胜率观察 LLM 的 belief tracking、可靠性和策略推理。
🎯 关联:中高。对 agent 平台的启发是:真实 agent 系统需要同时测 reasoning、state tracking、protocol compliance,而不是只看最终任务成功率。