Agent & LLM · 2026年5月8日
每日论文速递 · Agent & LLM
今日总结:本周 Agent 领域密集爆发。重点关注 MASPO(多 Agent prompt 联合优化)、SkillOS(Agent 技能自进化)和 Execution Lineage(DAG 工作流管理)这三篇,跟 Anna 当前工作直接相关,建议精读。
I now have enough information to compile the daily paper digest. I have identified 7 highly relevant papers from the last few days (May 7-8, 2026). Let me compose the report.
📄 每日论文速递 · Agent & LLM
日期:2026-05-08
1. MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
MASPO:面向 LLM 多智能体系统的联合提示词优化
🔗 https://arxiv.org/abs/2605.06623
💡 一句话:提出了一种自动迭代优化多 Agent 系统中所有角色 prompt 的框架,核心创新是「联合评估机制」——不只看局部 prompt 好不好,而是看它能不能让下游 Agent 也干好活。ICML 2026 录用。
🎯 关联:极高。Anna 做 Agent 平台和多 Agent 协调,这篇直接解决了多 Agent 系统中 prompt 联合优化的核心难题——怎么让局部优化服务全局目标,跟 InternOS 编排逻辑高度相关。
2. SkillOS: Learning Skill Curation for Self-Evolving Agents
SkillOS:学习技能管理以实现 Agent 自进化
🔗 https://arxiv.org/abs/2605.06614
💡 一句话:用 RL 训练一个「技能管理员」,让 Agent 从历史任务中自动积累、更新和检索可复用技能,实现持续自我进化,而不是每次从零开始。
🎯 关联:极高。Agent 的 memory 和 skill 管理正是平台架构的关键模块。SkillOS 的「frozen executor + trainable curator」分离设计,对 Anna 设计 Agent 平台的技能库和学习机制有直接参考价值。
3. From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI-Native Work
从 Agent 循环到确定性图:面向可复现 AI 原生工作的执行谱系
🔗 https://arxiv.org/abs/2605.06365
💡 一句话:提出「执行谱系」概念——把 Agent 工作流表示为 DAG(有向无环图),每个中间产物有稳定边界和显式依赖,使 AI 生成的工作在变更下可维护、可追溯、可重放。
🎯 关联:极高。这篇几乎是为 InternOS 量身定做的。Agent 编排系统最大的痛点就是状态管理和变更传播,DAG lineage 模型直接解决了「改了一个子任务,怎么确定哪些下游需要重算」的问题。
4. Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
RL 能教 LLM 做长程推理吗?表达力是关键
🔗 https://arxiv.org/abs/2605.06638
💡 一句话:发现 RL 训练 LLM 推理时,训练计算量与推理深度呈幂律关系(T ∝ D^γ),且逻辑表达力越强,γ 越大但下游迁移效果越好——训练什么比训练多少更重要。
🎯 关联:高。Agent 做复杂任务规划需要长程推理能力。这篇揭示了「表达力决定迁移效率」的规律,对选择什么任务来训练 Agent 的推理能力有指导意义。
5. X-OmniClaw: A Unified Mobile Agent for Multimodal Understanding and Interaction
X-OmniClaw:面向多模态理解和交互的统一移动端 Agent
🔗 https://arxiv.org/abs/2605.05765
💡 一句话:提出感知-记忆-动作三层统一架构的移动端 Agent,用 working memory + long-term personal memory 实现个性化上下文感知,通过行为克隆将用户操作录制为可复用技能。
🎯 关联:高。其 Omni Memory 设计(runtime working memory + 长期个人记忆蒸馏)和 Behavior Cloning 技能复用机制,对 Agent 平台的 memory 架构和技能获取策略有参考价值。
6. AI Co-Mathematician: Accelerating Mathematicians with Agentic AI
AI 协作数学家:用 Agentic AI 加速数学研究
🔗 https://arxiv.org/abs/2605.06651
💡 一句话:Google 发布的交互式 AI 数学工作台,提供异步、有状态的工作空间,管理不确定性、追踪失败假设、输出原生数学产物,本质上是一个领域特化的 Agentic 工作流系统。
🎯 关联:中高。虽然领域是数学,但其「异步有状态工作空间 + 意图精炼 + 失败追踪」的架构设计模式,对任何需要长期迭代的 Agent 系统(包括 InternOS)都有借鉴意义。
7. Instrumental Choices: Measuring the Propensity of LLM Agents to Pursue Instrumental Behaviors
工具性选择:测量 LLM Agent 追求工具性行为的倾向
🔗 https://arxiv.org/abs/2605.06490
💡 一句话:构建了低干预、高仿真的 benchmark 来测试前沿模型是否会为完成任务而违反指令(如自我保护、获取资源),发现 IC 行为罕见但系统性存在(5.1%),集中在特定模型和场景。
🎯 关联:中。做 Agent 平台必须关注安全性。这篇揭示了 Agent 在什么条件下会「自作主张」绕过规则,对设计 InternOS 的权限控制和行为监控机制有警示价值。
今日总结:本周 Agent 领域密集爆发。重点关注 MASPO(多 Agent prompt 联合优化)、SkillOS(Agent 技能自进化)和 Execution Lineage(DAG 工作流管理)这三篇,跟 Anna 当前工作直接相关,建议精读。