Agent & LLM · 2026年6月20日

每日论文速递 · Agent & LLM

💡 一句话：在 208 个生产场景上对比了 DAG Plan-and-Execute vs ReAct 在 10/80/200 agent 三档规模下的表现，发现瓶颈不是任务复杂度而是规模本身——agent discovery noise 是企业级编排的头号杀手；他们做了个 Task Manager 用优先级推断+相关事件合并+抢占，把高优队列延迟降 14-75%。

2026-06-20 09:02:197 篇论文条目

arXiv:2606.20058 arXiv:2606.20529 arXiv:2606.19911 arXiv:2606.20122 arXiv:2606.19812 arXiv:2606.19787 arXiv:2606.19893

信息够了。所有候选都是 6 月 18 日新提交的，完美。挑出最相关的 7 篇，写报告。

📄 每日论文速递 · Agent & LLM

日期：2026-06-20

1. Autonomous Event-Driven Multi-Agent Orchestration for Enterprise AI at Scale

企业级自主事件驱动多智能体编排

🔗 https://arxiv.org/abs/2606.20058

💡 一句话：在 208 个生产场景上对比了 DAG Plan-and-Execute vs ReAct 在 10/80/200 agent 三档规模下的表现，发现瓶颈不是任务复杂度而是规模本身——agent discovery noise 是企业级编排的头号杀手；他们做了个 Task Manager 用优先级推断+相关事件合并+抢占，把高优队列延迟降 14-75%。

🎯 关联：今天必读。这就是 InternOS 在做的事，而且他们已经把"小规模能跑、大规模崩"这个你迟早会遇到的坑趟过一遍了。特别是"简单任务反而退化更严重"这个反直觉结论——值得对照你 Kernel 的调度逻辑看看是不是也有类似 pattern。

2. LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

面向策略合规的工具调用智能体的结构化状态管理

🔗 https://arxiv.org/abs/2606.20529

💡 一句话：指出当前 agent 把 tool 返回、policy、observation 全塞 prompt 里让 LLM 自己每轮重建状态，导致两类典型失败——"事实拿对了但用错了"和"语法合法但违反业务策略"；提出显式 ledger 状态在推理时维护任务状态。

🎯 关联：直接打中你之前讨论的"承诺跟踪机制"。你说过不想重构 7 Kernel，但 ledger 这种"叠加一层显式状态"的做法是个低侵入选项，可以塞在 prompt 构造层之前。

3. Multi-Agent Transactive Memory (MATM)

多智能体交互式记忆

🔗 https://arxiv.org/abs/2606.19911

💡 一句话：把 RAG 从"检索人写的文档"扩展到"检索 agent 跑过的轨迹"——agent 轨迹里编码了可复用的过程性知识，但通常用完就扔，新 agent 只能重新发现解法；MATM 做了 population-level 的轨迹存储与检索。

🎯 关联：InternOS 里你迟早要面对的问题——一个 agent 解决过的子任务，另一个 agent 应该能"继承"而不是从零规划。这套框架可以直接借鉴它的存储/索引设计。

4. ScaffoldAgent: Utility-Guided Dynamic Outline Optimization for Open-Ended Deep Research

效用引导的动态大纲优化

🔗 https://arxiv.org/abs/2606.20122

💡 一句话：把 deep research 的 outline 演化建模成结构化决策过程，只允许三种操作（Expansion/Contraction/Revision），用 utility 反馈估计每次大纲修改的下游价值，避免"边写边改大纲漂移"。

🎯 关联：跨订单调度场景里"任务计划随着信息累积而修正"这个动作和它的 outline 演化几乎同构。它的三操作抽象很干净，值得借鉴成 task plan 的演化算子。

5. Human-on-the-Loop Orchestration for AI-Assisted Legal Discovery

面向法律电子取证的人在环编排

🔗 https://arxiv.org/abs/2606.19812

💡 一句话：提出"trajectory collapse"概念——多步推理链中一个早期误分类静默传播会让整个流程作废；提出四层验证架构（planning/reasoning/execution/uncertainty）来在 failure 复利之前拦截。

🎯 关联：法律场景跟你做的协调系统不直接对口，但"trajectory collapse"是任何长链路 agent 系统的通病，他们的四层验证可以抽象成 Kernel 层的 sanity check 模式。

6. ORAgentBench: Can LLM Agents Solve Challenging OR Tasks End to End?

LLM Agent 能端到端解运筹学任务吗

🔗 https://arxiv.org/abs/2606.19787

💡 一句话：107 个人工审核的运筹学任务，每个都是隔离环境+多文件数据+配置+提交 schema，agent 必须自己写代码跑出来交答案，由隐藏验证器评分。

🎯 关联：参考价值在 benchmark 设计本身——给 InternOS 设计内部 eval 时，"isolated env + 多文件输入 + schema 验证"这套形态比单轮 QA 真实得多。

7. MetaResearcher: Scaling Deep Research via Self-Reflective RL in Adversarial Virtual Environments

在对抗性虚拟环境里用自反思 RL 训练深度研究 agent

🔗 https://arxiv.org/abs/2606.19893

💡 一句话：往训练环境里注入时间动态和对抗性误导信息，逼 agent 学会信源可信度判断和时间冲突解决；任务设计从单纯事实检索升级为假设生成与矛盾解决。

🎯 关联：相关度第二档。如果将来 InternOS 要加 research agent 角色，"对抗式训练环境"是值得早点考虑的——比 outcome-only RL 健壮得多。

今日观察：6/18 这一波明显是 agent orchestration & state 主题密集出货，前 3 篇都直接打在 InternOS 的设计核心上。建议先扫 #1 和 #2 的方法部分。