A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月24日

每日论文速递 · Agent & LLM

💡 一句话:这篇直接拆 agent 模型训练数据 pipeline,做了 100+ ablation,并发布 100K agent 训练样本,核心价值是告诉你“什么数据真的能训出更会用工具/做任务的 agent”。

📄 每日论文速递 · Agent & LLM

日期:2026-06-24


1. OpenThoughts-Agent:面向 Agentic Models 的数据配方

OpenThoughts-Agent: Data Recipes for Agentic Models

💡 一句话:这篇直接拆 agent 模型训练数据 pipeline,做了 100+ ablation,并发布 100K agent 训练样本,核心价值是告诉你“什么数据真的能训出更会用工具/做任务的 agent”。

🎯 关联:非常高。Anna 做 Agent 平台时,不能只看 orchestration,也要知道底层模型能力如何被数据塑形;这篇对后续做 agent benchmark / fine-tuning strategy 很有参考价值。


2. 我们准备好 Agent-Native Memory System 了吗?

Are We Ready For An Agent-Native Memory System?

💡 一句话:把 agent memory 从“RAG 黑盒”拆成 representation/storage、extraction、retrieval/routing、maintenance 四个模块,并系统比较 12 类 memory system。

🎯 关联:极高。InternOS 的长期上下文、承诺跟踪、组织记忆都绕不开 memory lifecycle;这篇基本是在给 Anna 的 memory layer 提供评估框架。


3. SHERLOC:面向代码修复 Agent 的结构化诊断定位

SHERLOC: Structured Diagnostic Localization for Code Repair Agents

💡 一句话:它不急着让 coding agent 改代码,而是先用结构化 hypothesis + repo tools 做 fault localization,把 SWE-Bench 修复成功率平均拉高 5.95 个百分点,同时省 token。

🎯 关联:很高。对软件工程 AI 很实用:agent 平台里“先诊断、再行动”的 workflow 设计,比盲目 ReAct 循环更靠谱。


4. Agon:基于 Prompt Economy 的自主大规模跨学科研究系统

Agon: An Autonomous Large-Scale Omnidisciplinary Research System Built on Prompt Economy

💡 一句话:提出一个大规模研究 orchestrator,让机器负责批量产出和可验证部分,人类负责不可自动判断的 claim steering。

🎯 关联:高。它和 Anna 的 Agent 平台/InternOS 都关心“机器规模化执行 + 人类治理判断”的边界,尤其适合参考其 failure taxonomy。


5. 评估评估器:Agentic 数据分析系统评测经验

Grading the Grader: Lessons from Evaluating an Agentic Data Analysis System

💡 一句话:研究如何可靠评估 agentic data analysis 输出,提出 regex、LLM lenient grading、人类 snippet inspection 的三层 grading cascade。

🎯 关联:高。Anna 做平台一定会撞上“agent 输出怎么判定对错”的问题;这篇的价值不在模型,而在 evaluator architecture。


6. LLM Agent 社会中的关系秩序涌现:从集体情感到权威分层

Emergent Relational Order in LLM Agent Societies: From Collective Affect to Authority Stratification

💡 一句话:用 CAREB-MAS 多智能体框架模拟长期社会互动,观察劳动分工、关系衰减、权威结构等宏观秩序如何从 agent 交互中涌现。

🎯 关联:中高。不是工程平台论文,但对 InternOS 的组织协调系统很有启发:组织结构不是配置出来的,是交互规则长期跑出来的。


7. Age of LLM:战争迷雾下推理、外交与可靠性的战略 1v1 Benchmark

Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability of Large Language Models under Fog of War

💡 一句话:构造带战争迷雾、外交消息、严格 JSON action schema 的对抗环境,用非法动作率和胜率观察 LLM 的 belief tracking、可靠性和策略推理。

🎯 关联:中高。对 agent 平台的启发是:真实 agent 系统需要同时测 reasoning、state tracking、protocol compliance,而不是只看最终任务成功率。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-24 09:02:40
源文件
2026-06-24_09-02-40.md
链接数
7