Agent & LLM · 2026年5月22日
每日论文速递 · Agent & LLM
今日总结:这两天 arXiv 上 Agent 自进化方向爆了——MOSS(源码级自改写)、Ratchet(skill 生命周期管理)、DecentMem(去中心化记忆)三篇可以放在一起读,分别攻克了自进化的不同层面。Yohei 的 event sourcing 那篇对 InternOS 的架构设计最有直接启发,值得细读。
I now have all the data I need. Let me compile the report with the 7 most relevant papers for Anna.
📄 每日论文速递 · Agent & LLM
日期:2026-05-22
1. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems
MOSS:自主智能体系统的源码级自我进化
🔗 https://arxiv.org/abs/2605.22794
💡 一句话:现有"自进化"Agent 只能改 prompt/skill/memory 等文本层,但路由、hook 顺序、状态校验等逻辑写在代码里,文本层根本够不到。MOSS 直接让 Agent 在源码层面自我改写——基于生产环境失败日志批量构建修改证据,走确定性多阶段 pipeline,用 ephemeral worker 回放验证,health probe 通过后才热替换容器。在 OpenClaw 上单轮进化把 grader score 从 0.25 拉到 0.61。
🎯 关联:极高。InternOS 的 Kernel 如果未来要做 Agent 自优化,"哪些层面可以自修改、哪些不行"这个边界划分是核心问题。MOSS 的 source-level rewriting + container swap + rollback 机制可以直接参考。
2. The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems
日志即智能体:面向可审计、可分叉的事件溯源响应式图架构
🔗 https://arxiv.org/abs/2605.21997
💡 一句话:Yohei Nakajima(BabyAGI 作者)的新作。把 Agent 架构倒过来——不是"LLM 为中心 + 日志做观测",而是 append-only event log 是唯一真相源,工作图是 log 的确定性投影,所有行为(函数/LLM/逻辑)只是对图变化的响应。天然拿到三个属性:确定性回放、任意事件点 fork、完整因果链路追踪。
🎯 关联:极高。这篇和 InternOS 的 task/promise 追踪机制高度共鸣——event sourcing 天然适合做"谁承诺了什么、执行到哪了、出了问题回溯到哪个节点"。架构思路值得认真读。
3. Self-Evolving Multi-Agent Systems via Decentralized Memory (DecentMem)
去中心化记忆驱动的多智能体系统自进化
🔗 https://arxiv.org/abs/2605.22721
💡 一句话:多 Agent 系统的记忆一直是"共享中心仓库"模式,带来通信开销、隐私问题和多样性坍缩。DecentMem 让每个 Agent 维护自己的双池记忆(exploitation pool + exploration pool),用 LLM-as-judge 在线调权。理论上证明全局可达性和 O(log T) 累积遗憾。实测在 AutoGen/DyLAN/AgentNet 上平均准确率提升 23.8%,token 用量降 49%。
🎯 关联:高。InternOS 场景下多个 Kernel 各自积累经验而不是共享一个大记忆池,这个方向很有启发。特别是"去中心化但全局可达"的理论保证。
4. Compiling Agentic Workflows into LLM Weights
将 Agent 工作流编译进 LLM 权重:近前沿质量、百倍成本降低
🔗 https://arxiv.org/abs/2605.22502
💡 一句话:LangGraph、CrewAI、ADK 等编排框架全是"外部编排器在 LLM 上面"的模式。这篇直接把流程性任务的 workflow 蒸馏进小模型权重("地下 Agent"),不吃 context window、不需要 frontier model、不暴露私有流程给第三方。在旅行预订(14节点)、Zoom客服(14节点)、保险理赔(55节点)三个场景实证可行。
🎯 关联:高。对 Agent 平台设计有战略意义——编排和蒸馏不是非此即彼,而是可以互补。成熟的 workflow 蒸馏进小模型做执行层,复杂的新场景走编排层。这个分层思路 Anna 可以纳入 Agent 平台的长期规划。
5. Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles
Maestro:用强化学习编排分层模型-技能集成
🔗 https://arxiv.org/abs/2605.22177
💡 一句话:不把所有能力塞进一个大模型,而是训练一个 4B 的轻量策略网络来动态组合冻结的专家模型和两级技能库——每步决定调哪个专家、选哪个技能、何时终止。用 outcome-based RL 训练,不需要步级监督。4B 编排器在 10 个多模态 benchmark 上平均 70.1%,超过 GPT-5 (69.3%) 和 Gemini-2.5-Pro (68.7%)。
🎯 关联:高。这就是"调度/编排"问题的一个硬核解法。InternOS 里的任务分发和 Agent 选择,如果未来走 RL 路线,Maestro 的分层 registry + 策略学习架构是个好参照。
6. Ratchet: A Minimal Hygiene Recipe for Self-Evolving LLM Agents
Ratchet:自进化 LLM Agent 的最小卫生配方
🔗 https://arxiv.org/abs/2605.22148
💡 一句话:Voyager 开创的 skill library 路线有个致命问题:LLM 自己写的 skill 实际提升 +0.0pp,人写的 +16.2pp——瓶颈不在写 skill,在生命周期管理。Ratchet 只用四个机制(基于结果的淘汰、有上限的活跃池、meta-skill 指导、模式标准化),在 MBPP+ 上把 pass@1 从 0.258 拉到 0.584,SWE-bench Verified 上也有 +0.22 提升。消融实验发现淘汰机制和 meta-skill 是核心,去重反而被 meta-skill 自己覆盖了。
🎯 关联:高。这个发现很实用——skill library 的价值在管理而非生产。InternOS 的 Kernel 如果要积累可复用的操作模式,这个"最小卫生配方"(淘汰 + 上限 + meta 指导)可以直接照搬。
7. "Refactoring Runaway": Understanding and Mitigating Tangled Refactorings in Coding Agents
"重构失控":理解和缓解编码 Agent 中的缠绕式重构
🔗 https://arxiv.org/abs/2605.22526
💡 一句话:Coding Agent 在解 issue 时会像人类一样夹带重构,但这种"缠绕重构"会严重破坏编译通过率(从 compilability 角度强相关,与正确性无关)。分析了 3 个框架 × 12 个 LLM 的 3691 个 patch。提出的重构感知精炼方法把编译通过率从 19.34% 提到 38.33%,还额外解决了 2.79% 之前无法解决的 issue。
🎯 关联:中高。如果 Anna 的平台上有 coding agent 组件,这个发现很关键——Agent 生成的代码 patch 需要一个"重构检测+清洗"环节,不然编译都过不了。
今日总结:这两天 arXiv 上 Agent 自进化方向爆了——MOSS(源码级自改写)、Ratchet(skill 生命周期管理)、DecentMem(去中心化记忆)三篇可以放在一起读,分别攻克了自进化的不同层面。Yohei 的 event sourcing 那篇对 InternOS 的架构设计最有直接启发,值得细读。