Agent & LLM · 2026年5月8日

每日论文速递 · Agent & LLM

今日总结：本周 Agent 领域密集爆发。重点关注 MASPO（多 Agent prompt 联合优化）、SkillOS（Agent 技能自进化）和 Execution Lineage（DAG 工作流管理）这三篇，跟 Anna 当前工作直接相关，建议精读。

2026-05-08 09:15:137 篇论文条目

arXiv:2605.06623 arXiv:2605.06614 arXiv:2605.06365 arXiv:2605.06638 arXiv:2605.05765 arXiv:2605.06651 arXiv:2605.06490

I now have enough information to compile the daily paper digest. I have identified 7 highly relevant papers from the last few days (May 7-8, 2026). Let me compose the report.

📄 每日论文速递 · Agent & LLM

日期：2026-05-08

1. MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems

MASPO：面向 LLM 多智能体系统的联合提示词优化

🔗 https://arxiv.org/abs/2605.06623

💡 一句话：提出了一种自动迭代优化多 Agent 系统中所有角色 prompt 的框架，核心创新是「联合评估机制」——不只看局部 prompt 好不好，而是看它能不能让下游 Agent 也干好活。ICML 2026 录用。

🎯 关联：极高。Anna 做 Agent 平台和多 Agent 协调，这篇直接解决了多 Agent 系统中 prompt 联合优化的核心难题——怎么让局部优化服务全局目标，跟 InternOS 编排逻辑高度相关。

2. SkillOS: Learning Skill Curation for Self-Evolving Agents

SkillOS：学习技能管理以实现 Agent 自进化

🔗 https://arxiv.org/abs/2605.06614

💡 一句话：用 RL 训练一个「技能管理员」，让 Agent 从历史任务中自动积累、更新和检索可复用技能，实现持续自我进化，而不是每次从零开始。

🎯 关联：极高。Agent 的 memory 和 skill 管理正是平台架构的关键模块。SkillOS 的「frozen executor + trainable curator」分离设计，对 Anna 设计 Agent 平台的技能库和学习机制有直接参考价值。

3. From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI-Native Work

从 Agent 循环到确定性图：面向可复现 AI 原生工作的执行谱系

🔗 https://arxiv.org/abs/2605.06365

💡 一句话：提出「执行谱系」概念——把 Agent 工作流表示为 DAG（有向无环图），每个中间产物有稳定边界和显式依赖，使 AI 生成的工作在变更下可维护、可追溯、可重放。

🎯 关联：极高。这篇几乎是为 InternOS 量身定做的。Agent 编排系统最大的痛点就是状态管理和变更传播，DAG lineage 模型直接解决了「改了一个子任务，怎么确定哪些下游需要重算」的问题。

4. Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

RL 能教 LLM 做长程推理吗？表达力是关键

🔗 https://arxiv.org/abs/2605.06638

💡 一句话：发现 RL 训练 LLM 推理时，训练计算量与推理深度呈幂律关系（T ∝ D^γ），且逻辑表达力越强，γ 越大但下游迁移效果越好——训练什么比训练多少更重要。

🎯 关联：高。Agent 做复杂任务规划需要长程推理能力。这篇揭示了「表达力决定迁移效率」的规律，对选择什么任务来训练 Agent 的推理能力有指导意义。

5. X-OmniClaw: A Unified Mobile Agent for Multimodal Understanding and Interaction

X-OmniClaw：面向多模态理解和交互的统一移动端 Agent

🔗 https://arxiv.org/abs/2605.05765

💡 一句话：提出感知-记忆-动作三层统一架构的移动端 Agent，用 working memory + long-term personal memory 实现个性化上下文感知，通过行为克隆将用户操作录制为可复用技能。

🎯 关联：高。其 Omni Memory 设计（runtime working memory + 长期个人记忆蒸馏）和 Behavior Cloning 技能复用机制，对 Agent 平台的 memory 架构和技能获取策略有参考价值。

6. AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

AI 协作数学家：用 Agentic AI 加速数学研究

🔗 https://arxiv.org/abs/2605.06651

💡 一句话：Google 发布的交互式 AI 数学工作台，提供异步、有状态的工作空间，管理不确定性、追踪失败假设、输出原生数学产物，本质上是一个领域特化的 Agentic 工作流系统。

🎯 关联：中高。虽然领域是数学，但其「异步有状态工作空间 + 意图精炼 + 失败追踪」的架构设计模式，对任何需要长期迭代的 Agent 系统（包括 InternOS）都有借鉴意义。

7. Instrumental Choices: Measuring the Propensity of LLM Agents to Pursue Instrumental Behaviors

工具性选择：测量 LLM Agent 追求工具性行为的倾向

🔗 https://arxiv.org/abs/2605.06490

💡 一句话：构建了低干预、高仿真的 benchmark 来测试前沿模型是否会为完成任务而违反指令（如自我保护、获取资源），发现 IC 行为罕见但系统性存在（5.1%），集中在特定模型和场景。

🎯 关联：中。做 Agent 平台必须关注安全性。这篇揭示了 Agent 在什么条件下会「自作主张」绕过规则，对设计 InternOS 的权限控制和行为监控机制有警示价值。

今日总结：本周 Agent 领域密集爆发。重点关注 MASPO（多 Agent prompt 联合优化）、SkillOS（Agent 技能自进化）和 Execution Lineage（DAG 工作流管理）这三篇，跟 Anna 当前工作直接相关，建议精读。