Agent & LLM · 2026年6月25日

每日论文速递 · Agent & LLM

💡 一句话：这篇直接拆 agentic model 训练数据怎么做，用 100+ ablation 找数据来源、多样性、pipeline 各环节的真实贡献，并开源 100K agent 训练集。

2026-06-25 09:02:548 篇论文条目

📄 每日论文速递 · Agent & LLM

日期：2026-06-25

1. OpenThoughts-Agent: Data Recipes for Agentic Models

OpenThoughts-Agent：面向 Agent 模型的数据配方

🔗 https://arxiv.org/abs/2606.24855

💡 一句话：这篇直接拆 agentic model 训练数据怎么做，用 100+ ablation 找数据来源、多样性、pipeline 各环节的真实贡献，并开源 100K agent 训练集。

🎯 关联：很高。Anna 做 Agent 平台时别只盯 framework，这篇提醒核心壁垒之一是“可泛化的 agent 行为数据生产线”。

2. Are We Ready For An Agent-Native Memory System?

我们准备好 Agent 原生 Memory 系统了吗？

🔗 https://arxiv.org/abs/2606.24775

💡 一句话：把 Agent memory 拆成存储表示、抽取、检索路由、维护四个模块，系统评测 12 类 memory 架构，结论是没有银弹，memory 要按 workload 设计。

🎯 关联：非常高。这篇和 InternOS / Agent 平台的长期记忆、承诺跟踪、上下文治理直接相关，值得细读。

3. SHERLOC: Structured Diagnostic Localization for Code Repair Agents

SHERLOC：面向代码修复 Agent 的结构化诊断定位

🔗 https://arxiv.org/abs/2606.24820

💡 一句话：不是简单找 bug 文件，而是给 repair agent 产出“可执行诊断上下文”，在 SWE-Bench Verified 上提升修复率并显著省 token。

🎯 关联：很高。如果 Anna 后面做代码生成 / 自动修复类 Agent，这篇的核心点是：定位结果必须服务后续 action，不是 benchmark retrieval 游戏。

4. Agon: An Autonomous Large-Scale Omnidisciplinary Research System Built on Prompt Economy

Agon：基于 Prompt Economy 的大规模自主研究系统

🔗 https://arxiv.org/abs/2606.24177

💡 一句话：提出一个研究编排器，让机器规模化产出和验证可检查部分，把不可自动判断的地方留给人类科学家。

🎯 关联：高。这是典型 “human steers, machine scales” 架构，对 Anna 做组织协调系统很有参考价值：系统别替人决策，要放大人的判断。

5. Grading the Grader: Lessons from Evaluating an Agentic Data Analysis System

给评分器打分：评估 Agentic 数据分析系统的经验教训

🔗 https://arxiv.org/abs/2606.24839

💡 一句话：评估 Agent 输出不能只靠一个 LLM judge，它提出 regex、LLM lenient grading、人类抽检的三层 grading cascade。

🎯 关联：高。Agent 平台一定会踩评测坑；这篇很实用，尤其适合设计 InternOS 里任务完成度、承诺履约、结果可信度的评价链路。

6. World Models in Pieces: Structural Certification for General Agents

碎片化世界模型：通用 Agent 的结构化认证

🔗 https://arxiv.org/abs/2606.24842

💡 一句话：它不再追求“Agent 全局可靠”，而是证明 Agent 在哪些局部 transition / planning bottleneck 上可靠。

🎯 关联：中高。对生产级 Agent 很关键：别承诺系统全能，要能标注哪些环节可信、哪些环节必须 fallback 或 human-in-loop。

7. Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability of Large Language Models under Fog of War

Age of LLM：迷雾战争下测试 LLM 推理、外交和可靠性的 1v1 策略基准

🔗 https://arxiv.org/abs/2606.24391

💡 一句话：用战争迷雾、外交消息、严格 JSON action 规则测试 LLM 的 belief tracking、协商、可靠执行能力。

🎯 关联：中高。对多 Agent 协作很有启发：真实系统失败常常不是“不会推理”，而是状态跟踪错、schema 不稳、协商不落地。

8. Emergent Relational Order in LLM Agent Societies: From Collective Affect to Authority Stratification

LLM Agent 社会中的关系秩序涌现：从集体情感到权威分层

🔗 https://arxiv.org/abs/2606.23764

💡 一句话：构建长期多 Agent 社会模拟，让身份、情绪、伦理和资源分配互动，观察劳动分工、关系衰减、权威分层等结构涌现。

🎯 关联：中等偏高。不是工程框架论文，但对 InternOS 的组织行为建模有价值：长期协作系统里“关系结构”会自己长出来，不能只建任务队列。