Agent & LLM · 2026年5月25日

每日论文速递 · Agent & LLM

💡 一句话：直接把 agent 工作流（如旅行预订、保险理赔）fine-tune 进小模型权重里，干掉 LangGraph/CrewAI 这类外部编排层，成本降两个数量级，质量几乎不掉。

2026-05-25 09:04:378 篇论文条目

arXiv:2605.22502 arXiv:2605.14483 arXiv:2605.22721 arXiv:2605.23414 arXiv:2605.20485 arXiv:2605.15573 arXiv:2605.23218 arXiv:2605.22526

I now have all the information I need. Let me compile the report with the 7 most relevant papers.

📄 每日论文速递 · Agent & LLM

日期：2026-05-25

1. Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

把 Agentic 工作流编译进 LLM 权重：近前沿质量，百倍成本降低

🔗 https://arxiv.org/abs/2605.22502

🎯 关联：极高。这篇直接挑战了 "orchestrator 在 LLM 之上" 的主流 agent 架构范式。Anna 做 InternOS 如果涉及流程固定的协调任务，可以考虑这个 "subterranean agent" 路线——把编排逻辑烧进模型，省掉中间调度层的复杂度。

2. LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning

LEMON：通过反事实强化学习学习可执行的多智能体编排

🔗 https://arxiv.org/abs/2605.14483

💡 一句话：用一个 LLM orchestrator 自动生成完整的多 agent 编排规格（角色、能力等级、依赖关系），再用 counterfactual RL 做 credit assignment，在 MMLU/GSM8K/HumanEval 上 SOTA。

🎯 关联：极高。这就是 InternOS 里 "谁干什么、谁依赖谁" 的自动化版本。把 role design + capacity assignment + dependency construction 统一优化，比手写编排靠谱。投了 NeurIPS 2026。

3. Self-Evolving Multi-Agent Systems via Decentralized Memory (DecentMem)

通过去中心化记忆实现多智能体系统自进化

🔗 https://arxiv.org/abs/2605.22721

💡 一句话：每个 agent 维护自己的双池记忆（exploitation + exploration），不再共享中心化 memory，解决隐私、通信开销和 agent 多样性坍缩问题。理论上 O(log T) regret，实测在 AutoGen/DyLAN 上提升 23.8%。

🎯 关联：很高。InternOS 里 agent 的记忆架构可以直接参考——去中心化记忆 vs 共享记忆的取舍，这篇给了理论依据和实验数据。

4. When Planning Fails Despite Correct Execution: On Epistemic Calibration for LLM-Based Multi-Agent Systems

当计划失败但执行没错：LLM 多智能体系统中的认知校准问题

🔗 https://arxiv.org/abs/2605.23414

💡 一句话：多 agent 系统的失败往往不是执行错了，而是 agent 在规划时误判了自己的知识边界（epistemic miscalibration）。提出 EPC-AW 工作流，通过跨 agent 信息一致性来选计划，成功率提升 9.75%。

🎯 关联：高。这个问题在 InternOS 这种协调系统里会频繁出现——agent 自信地制定了错误计划。该框架的 "在不同信息条件下检验计划稳定性" 思路很实用。

5. ZEBRA: Zero-shot Budgeted Resource Allocation for LLM Orchestration

ZEBRA：零样本预算资源分配，用于 LLM 编排

🔗 https://arxiv.org/abs/2605.20485

💡 一句话：多 agent pipeline 下固定预算怎么分？用 LLM controller 估计每阶段效用曲线，然后用连续非线性背包问题 + 注水算法求解最优预算分配。在 0.5 倍预算下恢复 94.4% 的无约束质量。

🎯 关联：高。Agent 平台必然面临资源/成本约束，这篇把 "每个阶段花多少钱" 形式化了，比 "让 LLM 自己决定花多少" 靠谱得多。

6. Nexa: Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems

Nexa：响应条件下的并行-串行混合多智能体编排

🔗 https://arxiv.org/abs/2605.15573

💡 一句话：先让所有 agent 并行回答，然后用一个轻量 transformer 策略网络根据回答质量预测一个稀疏 DAG 通信图，决定是否需要串行精炼。学到的策略可以跨 agent 数量、任务和底层模型迁移。

🎯 关联：高。"先并行跑，再按需串行" 这个模式非常适合 InternOS 的任务调度——不是所有任务都需要严格串行协调，这篇给了一个自适应的方案。

7. Foundation Protocol: A Coordination Layer for Agentic Society

Foundation Protocol：面向 Agent 社会的协调层

🔗 https://arxiv.org/abs/2605.23218

💡 一句话：提出一个图优先的 agent 协调协议层，统一管理 agent/工具/资源/人类/组织等异构实体，内建经济原语（计量、收据、结算）和策略/审计机制，目标是让协调本身成为共享基础设施。

🎯 关联：中高。这篇更偏 vision paper，但思路和 InternOS 的 "组织协调系统" 高度重合——把 agent 间的协调、审计、责任追溯作为一等公民来设计。可以当架构参考读。

8. "Refactoring Runaway": Understanding and Mitigating Tangled Refactorings in Coding Agents for Issue Resolution

"重构失控"：理解和缓解 Coding Agent 在 Issue 解决中的纠缠重构

🔗 https://arxiv.org/abs/2605.22526

💡 一句话：分析了 3,691 个 coding agent 生成的 patch，发现 agent 比人类引入更少的纠缠重构（21% vs 37%），但纠缠重构显著降低编译通过率。提出重构感知的精炼方法，编译率从 19% 提到 38%。

🎯 关联：中。如果 Anna 的平台涉及代码生成 agent，这篇揭示了一个实际工程问题——agent 改 bug 时会顺手重构，然后把代码搞挂。

本周趋势观察：多 agent 编排（orchestration）是这周的绝对热点，LEMON、Nexa、ZEBRA、Maestro 都在解同一个问题的不同侧面——"多个 agent 怎么组织起来干活"。另一个明显趋势是 agent memory 架构的分化，从中心化走向去中心化。值得持续关注。