A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月20日

每日论文速递 · Agent & LLM

💡 一句话:在 208 个生产场景上对比了 DAG Plan-and-Execute vs ReAct 在 10/80/200 agent 三档规模下的表现,发现瓶颈不是任务复杂度而是规模本身——agent discovery noise 是企业级编排的头号杀手;他们做了个 Task Manager 用优先级推断+相关事件合并+抢占,把高优队列延迟降 14-75%。

信息够了。所有候选都是 6 月 18 日新提交的,完美。挑出最相关的 7 篇,写报告。

📄 每日论文速递 · Agent & LLM

日期:2026-06-20


1. Autonomous Event-Driven Multi-Agent Orchestration for Enterprise AI at Scale

企业级自主事件驱动多智能体编排

💡 一句话:在 208 个生产场景上对比了 DAG Plan-and-Execute vs ReAct 在 10/80/200 agent 三档规模下的表现,发现瓶颈不是任务复杂度而是规模本身——agent discovery noise 是企业级编排的头号杀手;他们做了个 Task Manager 用优先级推断+相关事件合并+抢占,把高优队列延迟降 14-75%。

🎯 关联:今天必读。这就是 InternOS 在做的事,而且他们已经把"小规模能跑、大规模崩"这个你迟早会遇到的坑趟过一遍了。特别是"简单任务反而退化更严重"这个反直觉结论——值得对照你 Kernel 的调度逻辑看看是不是也有类似 pattern。


2. LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

面向策略合规的工具调用智能体的结构化状态管理

💡 一句话:指出当前 agent 把 tool 返回、policy、observation 全塞 prompt 里让 LLM 自己每轮重建状态,导致两类典型失败——"事实拿对了但用错了"和"语法合法但违反业务策略";提出显式 ledger 状态在推理时维护任务状态。

🎯 关联:直接打中你之前讨论的"承诺跟踪机制"。你说过不想重构 7 Kernel,但 ledger 这种"叠加一层显式状态"的做法是个低侵入选项,可以塞在 prompt 构造层之前。


3. Multi-Agent Transactive Memory (MATM)

多智能体交互式记忆

💡 一句话:把 RAG 从"检索人写的文档"扩展到"检索 agent 跑过的轨迹"——agent 轨迹里编码了可复用的过程性知识,但通常用完就扔,新 agent 只能重新发现解法;MATM 做了 population-level 的轨迹存储与检索。

🎯 关联:InternOS 里你迟早要面对的问题——一个 agent 解决过的子任务,另一个 agent 应该能"继承"而不是从零规划。这套框架可以直接借鉴它的存储/索引设计。


4. ScaffoldAgent: Utility-Guided Dynamic Outline Optimization for Open-Ended Deep Research

效用引导的动态大纲优化

💡 一句话:把 deep research 的 outline 演化建模成结构化决策过程,只允许三种操作(Expansion/Contraction/Revision),用 utility 反馈估计每次大纲修改的下游价值,避免"边写边改大纲漂移"。

🎯 关联:跨订单调度场景里"任务计划随着信息累积而修正"这个动作和它的 outline 演化几乎同构。它的三操作抽象很干净,值得借鉴成 task plan 的演化算子。


5. Human-on-the-Loop Orchestration for AI-Assisted Legal Discovery

面向法律电子取证的人在环编排

💡 一句话:提出"trajectory collapse"概念——多步推理链中一个早期误分类静默传播会让整个流程作废;提出四层验证架构(planning/reasoning/execution/uncertainty)来在 failure 复利之前拦截。

🎯 关联:法律场景跟你做的协调系统不直接对口,但"trajectory collapse"是任何长链路 agent 系统的通病,他们的四层验证可以抽象成 Kernel 层的 sanity check 模式。


6. ORAgentBench: Can LLM Agents Solve Challenging OR Tasks End to End?

LLM Agent 能端到端解运筹学任务吗

💡 一句话:107 个人工审核的运筹学任务,每个都是隔离环境+多文件数据+配置+提交 schema,agent 必须自己写代码跑出来交答案,由隐藏验证器评分。

🎯 关联:参考价值在 benchmark 设计本身——给 InternOS 设计内部 eval 时,"isolated env + 多文件输入 + schema 验证"这套形态比单轮 QA 真实得多。


7. MetaResearcher: Scaling Deep Research via Self-Reflective RL in Adversarial Virtual Environments

在对抗性虚拟环境里用自反思 RL 训练深度研究 agent

💡 一句话:往训练环境里注入时间动态和对抗性误导信息,逼 agent 学会信源可信度判断和时间冲突解决;任务设计从单纯事实检索升级为假设生成与矛盾解决。

🎯 关联:相关度第二档。如果将来 InternOS 要加 research agent 角色,"对抗式训练环境"是值得早点考虑的——比 outcome-only RL 健壮得多。


今日观察:6/18 这一波明显是 agent orchestration & state 主题密集出货,前 3 篇都直接打在 InternOS 的设计核心上。建议先扫 #1 和 #2 的方法部分。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-20 09:02:19
源文件
2026-06-20_09-02-19.md
链接数
7