A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年5月27日

每日论文速递 · Agent & LLM

💡 一句话:把多 Agent workflow 整体当作 RL 优化单元,解耦逻辑角色与物理模型参数,支持 role 级别的 credit assignment 和灵活的参数共享策略,基于 verl + Ray 实现。

I now have enough high-quality papers. Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期:2026-05-27


1. UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems

(通用 RL 优化框架:面向 LLM 多智能体系统)

💡 一句话:把多 Agent workflow 整体当作 RL 优化单元,解耦逻辑角色与物理模型参数,支持 role 级别的 credit assignment 和灵活的参数共享策略,基于 verl + Ray 实现。

🎯 关联:极高。Anna 的 InternOS 就是多 Agent 编排系统,这篇论文的 "workflow 作为优化单元 + 逻辑角色与模型解耦" 思路,对 InternOS 中 Kernel 间的调度和优化策略有直接参考价值。


2. Self-Evolving Multi-Agent Systems via Decentralized Memory (DecentMem)

(去中心化记忆驱动的自演化多智能体系统)

💡 一句话:打破多 Agent 共享中心记忆的范式,每个 Agent 维护自己的双池记忆(利用池 + 探索池),在线 reweight,理论证明 O(log T) regret,实测比中心化 memory baseline 提升 23.8%。

🎯 关联:。InternOS 的记忆机制设计可以参考:去中心化 memory 能避免协调瓶颈,双池设计(经验复用 vs 新场景探索)很有意思。


3. MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

(技能全生命周期管理的自演化 Agent)

💡 一句话:把 Agent 的"技能"当作有生命周期的资产(创建→记忆→管理→评估→迭代),每个技能积累跨任务经验,支持跨 Agent 迁移。

🎯 关联:。InternOS 7 Kernel 本质也是技能抽象,这篇的 skill lifecycle + 跨 agent 迁移机制值得借鉴——你的 Kernel 如何积累和共享经验?


4. How to Steer Your Multi-Agent System: Human-LLM Collaborative Planning (AMBIPOM)

(人机协同规划多智能体系统)

💡 一句话:形式化了人与 LLM 协同规划的设计空间(语义 vs 结构、全局 vs 局部、低 vs 高粒度编辑),做了 user study 揭示人机协同的 effort-control-risk 权衡。CAIS 2026。

🎯 关联:。InternOS 最终要面对 Anna 自己或团队成员来"驾驭"多 Agent 系统——这篇直接研究怎么让人有效干预和引导 Agent 的规划过程,而不只是看最终结果。


5. MemFail: Stress-Testing Failure Modes of LLM Memory Systems

(LLM 记忆系统的失效模式压测)

💡 一句话:把 LLM 记忆系统拆成三个操作(摘要、存储、检索),为每个操作构建对抗性测试集,系统评估四个 SOTA memory system 的具体失败模式。Dawn Song 组的工作。

🎯 关联:中高。做 Agent 平台绕不开 memory,这篇帮你理解现有记忆系统到底在哪挂掉——summarization 丢信息?retrieval 召回不准?有助于 InternOS memory 层的设计决策。


6. CODESKILL: Learning Self-Evolving Skills for Coding Agents

(编程 Agent 的自演化技能学习)

💡 一句话:从 coding agent 的执行轨迹中用 RL 学习提取多粒度技能,训练一个 skill management policy,在 SWE-Bench Verified 上比无技能 baseline 提升 9.69。

🎯 关联:中高。跟 MUSE-Autoskill 呼应,但聚焦代码生成场景。如果 InternOS 涉及自动化软件工程任务,这个技能提取 + RL 训练的范式值得关注。


7. KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents

(意图门控的 Agent 执行内核)

💡 一句话:提出系统级抽象,把 LLM 推理层和执行层彻底解耦——LLM 负责规划,Executive Kernel 负责调度、工具分发、依赖解析、安全策略(Intent-Gated Execution)。

🎯 关联:极高。名字就叫 "Kernel",核心思想跟 InternOS 的 Kernel 架构异曲同工。IGX(intent-gated execution)的安全模型和调度模式(Reflect/nReflect/Orchestrator)可以直接参考。


8. A Two-Dimensional Framework for AI Agent Design Patterns

(AI Agent 设计模式的二维分类框架)

💡 一句话:用认知功能(7 类:感知/记忆/推理/行动/反思/协作/治理)× 执行拓扑(6 种:链/路由/并行/编排/循环/层级)构建 7×6 矩阵,定义 28 种 Agent 设计模式。

🎯 关联:中高。这是一个好的思维工具——可以用这个矩阵来审视 InternOS 7 Kernel 各自落在哪个模式上,检查架构覆盖是否完整。


本日总结:今天扎堆出了一批多 Agent 记忆和技能管理的论文,说明社区在往 "Agent 如何积累和复用经验" 这个方向猛推。对 InternOS 最直接相关的是 UnityMAS-O(workflow 级 RL 优化)和 KAIJU(执行内核解耦)——前者回答"多 Agent 系统怎么整体训练",后者回答"推理和执行怎么解耦",都是架构核心问题。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-05-27 09:07:12
源文件
2026-05-27_09-07-12.md
链接数
8