Agent & LLM · 2026年5月27日

每日论文速递 · Agent & LLM

💡 一句话：把多 Agent workflow 整体当作 RL 优化单元，解耦逻辑角色与物理模型参数，支持 role 级别的 credit assignment 和灵活的参数共享策略，基于 verl + Ray 实现。

2026-05-27 09:07:128 篇论文条目

arXiv:2605.26646 arXiv:2605.22721 arXiv:2605.27366 arXiv:2605.23023 arXiv:2605.26667 arXiv:2605.25430 arXiv:2604.02375 arXiv:2605.13850

I now have enough high-quality papers. Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期：2026-05-27

1. UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems

（通用 RL 优化框架：面向 LLM 多智能体系统）

🔗 https://arxiv.org/abs/2605.26646

🎯 关联：极高。Anna 的 InternOS 就是多 Agent 编排系统，这篇论文的 "workflow 作为优化单元 + 逻辑角色与模型解耦" 思路，对 InternOS 中 Kernel 间的调度和优化策略有直接参考价值。

2. Self-Evolving Multi-Agent Systems via Decentralized Memory (DecentMem)

（去中心化记忆驱动的自演化多智能体系统）

🔗 https://arxiv.org/abs/2605.22721

💡 一句话：打破多 Agent 共享中心记忆的范式，每个 Agent 维护自己的双池记忆（利用池 + 探索池），在线 reweight，理论证明 O(log T) regret，实测比中心化 memory baseline 提升 23.8%。

🎯 关联：高。InternOS 的记忆机制设计可以参考：去中心化 memory 能避免协调瓶颈，双池设计（经验复用 vs 新场景探索）很有意思。

3. MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

（技能全生命周期管理的自演化 Agent）

🔗 https://arxiv.org/abs/2605.27366

💡 一句话：把 Agent 的"技能"当作有生命周期的资产（创建→记忆→管理→评估→迭代），每个技能积累跨任务经验，支持跨 Agent 迁移。

🎯 关联：高。InternOS 7 Kernel 本质也是技能抽象，这篇的 skill lifecycle + 跨 agent 迁移机制值得借鉴——你的 Kernel 如何积累和共享经验？

4. How to Steer Your Multi-Agent System: Human-LLM Collaborative Planning (AMBIPOM)

（人机协同规划多智能体系统）

🔗 https://arxiv.org/abs/2605.23023

💡 一句话：形式化了人与 LLM 协同规划的设计空间（语义 vs 结构、全局 vs 局部、低 vs 高粒度编辑），做了 user study 揭示人机协同的 effort-control-risk 权衡。CAIS 2026。

🎯 关联：高。InternOS 最终要面对 Anna 自己或团队成员来"驾驭"多 Agent 系统——这篇直接研究怎么让人有效干预和引导 Agent 的规划过程，而不只是看最终结果。

5. MemFail: Stress-Testing Failure Modes of LLM Memory Systems

（LLM 记忆系统的失效模式压测）

🔗 https://arxiv.org/abs/2605.26667

💡 一句话：把 LLM 记忆系统拆成三个操作（摘要、存储、检索），为每个操作构建对抗性测试集，系统评估四个 SOTA memory system 的具体失败模式。Dawn Song 组的工作。

🎯 关联：中高。做 Agent 平台绕不开 memory，这篇帮你理解现有记忆系统到底在哪挂掉——summarization 丢信息？retrieval 召回不准？有助于 InternOS memory 层的设计决策。

6. CODESKILL: Learning Self-Evolving Skills for Coding Agents

（编程 Agent 的自演化技能学习）

🔗 https://arxiv.org/abs/2605.25430

💡 一句话：从 coding agent 的执行轨迹中用 RL 学习提取多粒度技能，训练一个 skill management policy，在 SWE-Bench Verified 上比无技能 baseline 提升 9.69。

🎯 关联：中高。跟 MUSE-Autoskill 呼应，但聚焦代码生成场景。如果 InternOS 涉及自动化软件工程任务，这个技能提取 + RL 训练的范式值得关注。

7. KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents

（意图门控的 Agent 执行内核）

🔗 https://arxiv.org/abs/2604.02375

💡 一句话：提出系统级抽象，把 LLM 推理层和执行层彻底解耦——LLM 负责规划，Executive Kernel 负责调度、工具分发、依赖解析、安全策略（Intent-Gated Execution）。

🎯 关联：极高。名字就叫 "Kernel"，核心思想跟 InternOS 的 Kernel 架构异曲同工。IGX（intent-gated execution）的安全模型和调度模式（Reflect/nReflect/Orchestrator）可以直接参考。

8. A Two-Dimensional Framework for AI Agent Design Patterns

（AI Agent 设计模式的二维分类框架）

🔗 https://arxiv.org/abs/2605.13850

💡 一句话：用认知功能（7 类：感知/记忆/推理/行动/反思/协作/治理）× 执行拓扑（6 种：链/路由/并行/编排/循环/层级）构建 7×6 矩阵，定义 28 种 Agent 设计模式。

🎯 关联：中高。这是一个好的思维工具——可以用这个矩阵来审视 InternOS 7 Kernel 各自落在哪个模式上，检查架构覆盖是否完整。

本日总结：今天扎堆出了一批多 Agent 记忆和技能管理的论文，说明社区在往 "Agent 如何积累和复用经验" 这个方向猛推。对 InternOS 最直接相关的是 UnityMAS-O（workflow 级 RL 优化）和 KAIJU（执行内核解耦）——前者回答"多 Agent 系统怎么整体训练"，后者回答"推理和执行怎么解耦"，都是架构核心问题。