Agent & LLM · 2026年5月25日
每日论文速递 · Agent & LLM
💡 一句话:直接把 agent 工作流(如旅行预订、保险理赔)fine-tune 进小模型权重里,干掉 LangGraph/CrewAI 这类外部编排层,成本降两个数量级,质量几乎不掉。
I now have all the information I need. Let me compile the report with the 7 most relevant papers.
📄 每日论文速递 · Agent & LLM
日期:2026-05-25
1. Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost
把 Agentic 工作流编译进 LLM 权重:近前沿质量,百倍成本降低
🔗 https://arxiv.org/abs/2605.22502
💡 一句话:直接把 agent 工作流(如旅行预订、保险理赔)fine-tune 进小模型权重里,干掉 LangGraph/CrewAI 这类外部编排层,成本降两个数量级,质量几乎不掉。
🎯 关联:极高。这篇直接挑战了 "orchestrator 在 LLM 之上" 的主流 agent 架构范式。Anna 做 InternOS 如果涉及流程固定的协调任务,可以考虑这个 "subterranean agent" 路线——把编排逻辑烧进模型,省掉中间调度层的复杂度。
2. LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning
LEMON:通过反事实强化学习学习可执行的多智能体编排
🔗 https://arxiv.org/abs/2605.14483
💡 一句话:用一个 LLM orchestrator 自动生成完整的多 agent 编排规格(角色、能力等级、依赖关系),再用 counterfactual RL 做 credit assignment,在 MMLU/GSM8K/HumanEval 上 SOTA。
🎯 关联:极高。这就是 InternOS 里 "谁干什么、谁依赖谁" 的自动化版本。把 role design + capacity assignment + dependency construction 统一优化,比手写编排靠谱。投了 NeurIPS 2026。
3. Self-Evolving Multi-Agent Systems via Decentralized Memory (DecentMem)
通过去中心化记忆实现多智能体系统自进化
🔗 https://arxiv.org/abs/2605.22721
💡 一句话:每个 agent 维护自己的双池记忆(exploitation + exploration),不再共享中心化 memory,解决隐私、通信开销和 agent 多样性坍缩问题。理论上 O(log T) regret,实测在 AutoGen/DyLAN 上提升 23.8%。
🎯 关联:很高。InternOS 里 agent 的记忆架构可以直接参考——去中心化记忆 vs 共享记忆的取舍,这篇给了理论依据和实验数据。
4. When Planning Fails Despite Correct Execution: On Epistemic Calibration for LLM-Based Multi-Agent Systems
当计划失败但执行没错:LLM 多智能体系统中的认知校准问题
🔗 https://arxiv.org/abs/2605.23414
💡 一句话:多 agent 系统的失败往往不是执行错了,而是 agent 在规划时误判了自己的知识边界(epistemic miscalibration)。提出 EPC-AW 工作流,通过跨 agent 信息一致性来选计划,成功率提升 9.75%。
🎯 关联:高。这个问题在 InternOS 这种协调系统里会频繁出现——agent 自信地制定了错误计划。该框架的 "在不同信息条件下检验计划稳定性" 思路很实用。
5. ZEBRA: Zero-shot Budgeted Resource Allocation for LLM Orchestration
ZEBRA:零样本预算资源分配,用于 LLM 编排
🔗 https://arxiv.org/abs/2605.20485
💡 一句话:多 agent pipeline 下固定预算怎么分?用 LLM controller 估计每阶段效用曲线,然后用连续非线性背包问题 + 注水算法求解最优预算分配。在 0.5 倍预算下恢复 94.4% 的无约束质量。
🎯 关联:高。Agent 平台必然面临资源/成本约束,这篇把 "每个阶段花多少钱" 形式化了,比 "让 LLM 自己决定花多少" 靠谱得多。
6. Nexa: Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems
Nexa:响应条件下的并行-串行混合多智能体编排
🔗 https://arxiv.org/abs/2605.15573
💡 一句话:先让所有 agent 并行回答,然后用一个轻量 transformer 策略网络根据回答质量预测一个稀疏 DAG 通信图,决定是否需要串行精炼。学到的策略可以跨 agent 数量、任务和底层模型迁移。
🎯 关联:高。"先并行跑,再按需串行" 这个模式非常适合 InternOS 的任务调度——不是所有任务都需要严格串行协调,这篇给了一个自适应的方案。
7. Foundation Protocol: A Coordination Layer for Agentic Society
Foundation Protocol:面向 Agent 社会的协调层
🔗 https://arxiv.org/abs/2605.23218
💡 一句话:提出一个图优先的 agent 协调协议层,统一管理 agent/工具/资源/人类/组织等异构实体,内建经济原语(计量、收据、结算)和策略/审计机制,目标是让协调本身成为共享基础设施。
🎯 关联:中高。这篇更偏 vision paper,但思路和 InternOS 的 "组织协调系统" 高度重合——把 agent 间的协调、审计、责任追溯作为一等公民来设计。可以当架构参考读。
8. "Refactoring Runaway": Understanding and Mitigating Tangled Refactorings in Coding Agents for Issue Resolution
"重构失控":理解和缓解 Coding Agent 在 Issue 解决中的纠缠重构
🔗 https://arxiv.org/abs/2605.22526
💡 一句话:分析了 3,691 个 coding agent 生成的 patch,发现 agent 比人类引入更少的纠缠重构(21% vs 37%),但纠缠重构显著降低编译通过率。提出重构感知的精炼方法,编译率从 19% 提到 38%。
🎯 关联:中。如果 Anna 的平台涉及代码生成 agent,这篇揭示了一个实际工程问题——agent 改 bug 时会顺手重构,然后把代码搞挂。
本周趋势观察:多 agent 编排(orchestration)是这周的绝对热点,LEMON、Nexa、ZEBRA、Maestro 都在解同一个问题的不同侧面——"多个 agent 怎么组织起来干活"。另一个明显趋势是 agent memory 架构的分化,从中心化走向去中心化。值得持续关注。