Agent & LLM · 2026年5月27日
每日论文速递 · Agent & LLM
💡 一句话:把多 Agent workflow 整体当作 RL 优化单元,解耦逻辑角色与物理模型参数,支持 role 级别的 credit assignment 和灵活的参数共享策略,基于 verl + Ray 实现。
I now have enough high-quality papers. Let me compile the report.
📄 每日论文速递 · Agent & LLM
日期:2026-05-27
1. UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems
(通用 RL 优化框架:面向 LLM 多智能体系统)
🔗 https://arxiv.org/abs/2605.26646
💡 一句话:把多 Agent workflow 整体当作 RL 优化单元,解耦逻辑角色与物理模型参数,支持 role 级别的 credit assignment 和灵活的参数共享策略,基于 verl + Ray 实现。
🎯 关联:极高。Anna 的 InternOS 就是多 Agent 编排系统,这篇论文的 "workflow 作为优化单元 + 逻辑角色与模型解耦" 思路,对 InternOS 中 Kernel 间的调度和优化策略有直接参考价值。
2. Self-Evolving Multi-Agent Systems via Decentralized Memory (DecentMem)
(去中心化记忆驱动的自演化多智能体系统)
🔗 https://arxiv.org/abs/2605.22721
💡 一句话:打破多 Agent 共享中心记忆的范式,每个 Agent 维护自己的双池记忆(利用池 + 探索池),在线 reweight,理论证明 O(log T) regret,实测比中心化 memory baseline 提升 23.8%。
🎯 关联:高。InternOS 的记忆机制设计可以参考:去中心化 memory 能避免协调瓶颈,双池设计(经验复用 vs 新场景探索)很有意思。
3. MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation
(技能全生命周期管理的自演化 Agent)
🔗 https://arxiv.org/abs/2605.27366
💡 一句话:把 Agent 的"技能"当作有生命周期的资产(创建→记忆→管理→评估→迭代),每个技能积累跨任务经验,支持跨 Agent 迁移。
🎯 关联:高。InternOS 7 Kernel 本质也是技能抽象,这篇的 skill lifecycle + 跨 agent 迁移机制值得借鉴——你的 Kernel 如何积累和共享经验?
4. How to Steer Your Multi-Agent System: Human-LLM Collaborative Planning (AMBIPOM)
(人机协同规划多智能体系统)
🔗 https://arxiv.org/abs/2605.23023
💡 一句话:形式化了人与 LLM 协同规划的设计空间(语义 vs 结构、全局 vs 局部、低 vs 高粒度编辑),做了 user study 揭示人机协同的 effort-control-risk 权衡。CAIS 2026。
🎯 关联:高。InternOS 最终要面对 Anna 自己或团队成员来"驾驭"多 Agent 系统——这篇直接研究怎么让人有效干预和引导 Agent 的规划过程,而不只是看最终结果。
5. MemFail: Stress-Testing Failure Modes of LLM Memory Systems
(LLM 记忆系统的失效模式压测)
🔗 https://arxiv.org/abs/2605.26667
💡 一句话:把 LLM 记忆系统拆成三个操作(摘要、存储、检索),为每个操作构建对抗性测试集,系统评估四个 SOTA memory system 的具体失败模式。Dawn Song 组的工作。
🎯 关联:中高。做 Agent 平台绕不开 memory,这篇帮你理解现有记忆系统到底在哪挂掉——summarization 丢信息?retrieval 召回不准?有助于 InternOS memory 层的设计决策。
6. CODESKILL: Learning Self-Evolving Skills for Coding Agents
(编程 Agent 的自演化技能学习)
🔗 https://arxiv.org/abs/2605.25430
💡 一句话:从 coding agent 的执行轨迹中用 RL 学习提取多粒度技能,训练一个 skill management policy,在 SWE-Bench Verified 上比无技能 baseline 提升 9.69。
🎯 关联:中高。跟 MUSE-Autoskill 呼应,但聚焦代码生成场景。如果 InternOS 涉及自动化软件工程任务,这个技能提取 + RL 训练的范式值得关注。
7. KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents
(意图门控的 Agent 执行内核)
🔗 https://arxiv.org/abs/2604.02375
💡 一句话:提出系统级抽象,把 LLM 推理层和执行层彻底解耦——LLM 负责规划,Executive Kernel 负责调度、工具分发、依赖解析、安全策略(Intent-Gated Execution)。
🎯 关联:极高。名字就叫 "Kernel",核心思想跟 InternOS 的 Kernel 架构异曲同工。IGX(intent-gated execution)的安全模型和调度模式(Reflect/nReflect/Orchestrator)可以直接参考。
8. A Two-Dimensional Framework for AI Agent Design Patterns
(AI Agent 设计模式的二维分类框架)
🔗 https://arxiv.org/abs/2605.13850
💡 一句话:用认知功能(7 类:感知/记忆/推理/行动/反思/协作/治理)× 执行拓扑(6 种:链/路由/并行/编排/循环/层级)构建 7×6 矩阵,定义 28 种 Agent 设计模式。
🎯 关联:中高。这是一个好的思维工具——可以用这个矩阵来审视 InternOS 7 Kernel 各自落在哪个模式上,检查架构覆盖是否完整。
本日总结:今天扎堆出了一批多 Agent 记忆和技能管理的论文,说明社区在往 "Agent 如何积累和复用经验" 这个方向猛推。对 InternOS 最直接相关的是 UnityMAS-O(workflow 级 RL 优化)和 KAIJU(执行内核解耦)——前者回答"多 Agent 系统怎么整体训练",后者回答"推理和执行怎么解耦",都是架构核心问题。