Agent & LLM · 2026年5月22日

每日论文速递 · Agent & LLM

今日总结：这两天 arXiv 上 Agent 自进化方向爆了——MOSS（源码级自改写）、Ratchet（skill 生命周期管理）、DecentMem（去中心化记忆）三篇可以放在一起读，分别攻克了自进化的不同层面。Yohei 的 event sourcing 那篇对 InternOS 的架构设计最有直接启发，值得细读。

2026-05-22 09:05:537 篇论文条目

arXiv:2605.22794 arXiv:2605.21997 arXiv:2605.22721 arXiv:2605.22502 arXiv:2605.22177 arXiv:2605.22148 arXiv:2605.22526

I now have all the data I need. Let me compile the report with the 7 most relevant papers for Anna.

📄 每日论文速递 · Agent & LLM

日期：2026-05-22

1. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

MOSS：自主智能体系统的源码级自我进化

🔗 https://arxiv.org/abs/2605.22794

💡 一句话：现有"自进化"Agent 只能改 prompt/skill/memory 等文本层，但路由、hook 顺序、状态校验等逻辑写在代码里，文本层根本够不到。MOSS 直接让 Agent 在源码层面自我改写——基于生产环境失败日志批量构建修改证据，走确定性多阶段 pipeline，用 ephemeral worker 回放验证，health probe 通过后才热替换容器。在 OpenClaw 上单轮进化把 grader score 从 0.25 拉到 0.61。

🎯 关联：极高。InternOS 的 Kernel 如果未来要做 Agent 自优化，"哪些层面可以自修改、哪些不行"这个边界划分是核心问题。MOSS 的 source-level rewriting + container swap + rollback 机制可以直接参考。

2. The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems

日志即智能体：面向可审计、可分叉的事件溯源响应式图架构

🔗 https://arxiv.org/abs/2605.21997

💡 一句话：Yohei Nakajima（BabyAGI 作者）的新作。把 Agent 架构倒过来——不是"LLM 为中心 + 日志做观测"，而是 append-only event log 是唯一真相源，工作图是 log 的确定性投影，所有行为（函数/LLM/逻辑）只是对图变化的响应。天然拿到三个属性：确定性回放、任意事件点 fork、完整因果链路追踪。

🎯 关联：极高。这篇和 InternOS 的 task/promise 追踪机制高度共鸣——event sourcing 天然适合做"谁承诺了什么、执行到哪了、出了问题回溯到哪个节点"。架构思路值得认真读。

3. Self-Evolving Multi-Agent Systems via Decentralized Memory (DecentMem)

去中心化记忆驱动的多智能体系统自进化

🔗 https://arxiv.org/abs/2605.22721

💡 一句话：多 Agent 系统的记忆一直是"共享中心仓库"模式，带来通信开销、隐私问题和多样性坍缩。DecentMem 让每个 Agent 维护自己的双池记忆（exploitation pool + exploration pool），用 LLM-as-judge 在线调权。理论上证明全局可达性和 O(log T) 累积遗憾。实测在 AutoGen/DyLAN/AgentNet 上平均准确率提升 23.8%，token 用量降 49%。

🎯 关联：高。InternOS 场景下多个 Kernel 各自积累经验而不是共享一个大记忆池，这个方向很有启发。特别是"去中心化但全局可达"的理论保证。

4. Compiling Agentic Workflows into LLM Weights

将 Agent 工作流编译进 LLM 权重：近前沿质量、百倍成本降低

🔗 https://arxiv.org/abs/2605.22502

💡 一句话：LangGraph、CrewAI、ADK 等编排框架全是"外部编排器在 LLM 上面"的模式。这篇直接把流程性任务的 workflow 蒸馏进小模型权重（"地下 Agent"），不吃 context window、不需要 frontier model、不暴露私有流程给第三方。在旅行预订(14节点)、Zoom客服(14节点)、保险理赔(55节点)三个场景实证可行。

🎯 关联：高。对 Agent 平台设计有战略意义——编排和蒸馏不是非此即彼，而是可以互补。成熟的 workflow 蒸馏进小模型做执行层，复杂的新场景走编排层。这个分层思路 Anna 可以纳入 Agent 平台的长期规划。

5. Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

Maestro：用强化学习编排分层模型-技能集成

🔗 https://arxiv.org/abs/2605.22177

💡 一句话：不把所有能力塞进一个大模型，而是训练一个 4B 的轻量策略网络来动态组合冻结的专家模型和两级技能库——每步决定调哪个专家、选哪个技能、何时终止。用 outcome-based RL 训练，不需要步级监督。4B 编排器在 10 个多模态 benchmark 上平均 70.1%，超过 GPT-5 (69.3%) 和 Gemini-2.5-Pro (68.7%)。

🎯 关联：高。这就是"调度/编排"问题的一个硬核解法。InternOS 里的任务分发和 Agent 选择，如果未来走 RL 路线，Maestro 的分层 registry + 策略学习架构是个好参照。

6. Ratchet: A Minimal Hygiene Recipe for Self-Evolving LLM Agents

Ratchet：自进化 LLM Agent 的最小卫生配方

🔗 https://arxiv.org/abs/2605.22148

💡 一句话：Voyager 开创的 skill library 路线有个致命问题：LLM 自己写的 skill 实际提升 +0.0pp，人写的 +16.2pp——瓶颈不在写 skill，在生命周期管理。Ratchet 只用四个机制（基于结果的淘汰、有上限的活跃池、meta-skill 指导、模式标准化），在 MBPP+ 上把 pass@1 从 0.258 拉到 0.584，SWE-bench Verified 上也有 +0.22 提升。消融实验发现淘汰机制和 meta-skill 是核心，去重反而被 meta-skill 自己覆盖了。

🎯 关联：高。这个发现很实用——skill library 的价值在管理而非生产。InternOS 的 Kernel 如果要积累可复用的操作模式，这个"最小卫生配方"（淘汰 + 上限 + meta 指导）可以直接照搬。

7. "Refactoring Runaway": Understanding and Mitigating Tangled Refactorings in Coding Agents

"重构失控"：理解和缓解编码 Agent 中的缠绕式重构

🔗 https://arxiv.org/abs/2605.22526

💡 一句话：Coding Agent 在解 issue 时会像人类一样夹带重构，但这种"缠绕重构"会严重破坏编译通过率（从 compilability 角度强相关，与正确性无关）。分析了 3 个框架 × 12 个 LLM 的 3691 个 patch。提出的重构感知精炼方法把编译通过率从 19.34% 提到 38.33%，还额外解决了 2.79% 之前无法解决的 issue。

🎯 关联：中高。如果 Anna 的平台上有 coding agent 组件，这个发现很关键——Agent 生成的代码 patch 需要一个"重构检测+清洗"环节，不然编译都过不了。

今日总结：这两天 arXiv 上 Agent 自进化方向爆了——MOSS（源码级自改写）、Ratchet（skill 生命周期管理）、DecentMem（去中心化记忆）三篇可以放在一起读，分别攻克了自进化的不同层面。Yohei 的 event sourcing 那篇对 InternOS 的架构设计最有直接启发，值得细读。