Agent & LLM · 2026年6月24日

每日论文速递 · Agent & LLM

💡 一句话：这篇直接拆 agent 模型训练数据 pipeline，做了 100+ ablation，并发布 100K agent 训练样本，核心价值是告诉你“什么数据真的能训出更会用工具/做任务的 agent”。

2026-06-24 09:02:407 篇论文条目

📄 每日论文速递 · Agent & LLM

日期：2026-06-24

1. OpenThoughts-Agent：面向 Agentic Models 的数据配方

OpenThoughts-Agent: Data Recipes for Agentic Models

🎯 关联：非常高。Anna 做 Agent 平台时，不能只看 orchestration，也要知道底层模型能力如何被数据塑形；这篇对后续做 agent benchmark / fine-tuning strategy 很有参考价值。

2. 我们准备好 Agent-Native Memory System 了吗？

Are We Ready For An Agent-Native Memory System?

💡 一句话：把 agent memory 从“RAG 黑盒”拆成 representation/storage、extraction、retrieval/routing、maintenance 四个模块，并系统比较 12 类 memory system。

🎯 关联：极高。InternOS 的长期上下文、承诺跟踪、组织记忆都绕不开 memory lifecycle；这篇基本是在给 Anna 的 memory layer 提供评估框架。

3. SHERLOC：面向代码修复 Agent 的结构化诊断定位

SHERLOC: Structured Diagnostic Localization for Code Repair Agents

💡 一句话：它不急着让 coding agent 改代码，而是先用结构化 hypothesis + repo tools 做 fault localization，把 SWE-Bench 修复成功率平均拉高 5.95 个百分点，同时省 token。

🎯 关联：很高。对软件工程 AI 很实用：agent 平台里“先诊断、再行动”的 workflow 设计，比盲目 ReAct 循环更靠谱。

4. Agon：基于 Prompt Economy 的自主大规模跨学科研究系统

Agon: An Autonomous Large-Scale Omnidisciplinary Research System Built on Prompt Economy

💡 一句话：提出一个大规模研究 orchestrator，让机器负责批量产出和可验证部分，人类负责不可自动判断的 claim steering。

🎯 关联：高。它和 Anna 的 Agent 平台/InternOS 都关心“机器规模化执行 + 人类治理判断”的边界，尤其适合参考其 failure taxonomy。

5. 评估评估器：Agentic 数据分析系统评测经验

Grading the Grader: Lessons from Evaluating an Agentic Data Analysis System

💡 一句话：研究如何可靠评估 agentic data analysis 输出，提出 regex、LLM lenient grading、人类 snippet inspection 的三层 grading cascade。

🎯 关联：高。Anna 做平台一定会撞上“agent 输出怎么判定对错”的问题；这篇的价值不在模型，而在 evaluator architecture。

6. LLM Agent 社会中的关系秩序涌现：从集体情感到权威分层

Emergent Relational Order in LLM Agent Societies: From Collective Affect to Authority Stratification

💡 一句话：用 CAREB-MAS 多智能体框架模拟长期社会互动，观察劳动分工、关系衰减、权威结构等宏观秩序如何从 agent 交互中涌现。

🎯 关联：中高。不是工程平台论文，但对 InternOS 的组织协调系统很有启发：组织结构不是配置出来的，是交互规则长期跑出来的。

7. Age of LLM：战争迷雾下推理、外交与可靠性的战略 1v1 Benchmark

Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability of Large Language Models under Fog of War

💡 一句话：构造带战争迷雾、外交消息、严格 JSON action schema 的对抗环境，用非法动作率和胜率观察 LLM 的 belief tracking、可靠性和策略推理。

🎯 关联：中高。对 agent 平台的启发是：真实 agent 系统需要同时测 reasoning、state tracking、protocol compliance，而不是只看最终任务成功率。