Agent & LLM · 2026年5月10日

每日论文速递 · Agent & LLM

💡 一句话：提出 LATTE 框架，让多个 LLM Agent 动态构建和维护共享的协调图（编码子任务依赖、分配和进度），在保持一致性的同时实现动态分工和自适应协调，token 用量、耗时和冲突全面优于 MetaGPT 等基线。

2026-05-10 09:03:308 篇论文条目

arXiv:2605.06320 arXiv:2605.06623 arXiv:2605.06614 arXiv:2605.06527 arXiv:2605.06642 arXiv:2605.06455 arXiv:2605.05657 arXiv:2605.05216

I now have all the papers I need. I have 8 highly relevant papers with complete abstracts. Let me compile the final report.

📄 每日论文速递 · Agent & LLM

日期：2026-05-10

1. LATTE: Language Agent Teams for Task Evolution — 用自适应任务图提升多智能体协作效率

🔗 https://arxiv.org/abs/2605.06320

🎯 关联：⭐⭐⭐⭐⭐ 极高 — 这篇直接对标 InternOS 的组织协调系统设计。共享协调图 + 动态任务发现 + 去中心化分工，正是 Agent 平台编排层的核心问题。建议精读。

2. MASPO: 面向 LLM 多智能体系统的联合 Prompt 优化

🔗 https://arxiv.org/abs/2605.06623

💡 一句话：多 Agent 系统中各 Agent 的 prompt 不能孤立优化——MASPO 用联合评估机制（按下游 Agent 成功率来评估上游 prompt）+ 演化束搜索，自动迭代优化整个系统的 prompt，ICML 2026 接收。

🎯 关联：⭐⭐⭐⭐⭐ 极高 — Agent 平台中最头疼的问题之一就是多 Agent 间的 prompt 联调。这个框架可以直接集成到 InternOS 的 Agent 编排流程中做自动调优。

3. SkillOS: 让 Agent 通过 RL 学会自我进化的技能管理

🔗 https://arxiv.org/abs/2605.06614

💡 一句话：提出用强化学习训练一个"技能策展人"，自动从 Agent 历史经验中提炼、更新和组织可复用技能库（SkillRepo），让 Agent 在处理流式任务时越来越强，且技能策展策略可泛化到不同执行器和任务域。

🎯 关联：⭐⭐⭐⭐⭐ 极高 — Agent 平台的 memory/skill 层设计参考。SkillRepo 的"经验驱动自进化"思路直接适用于 InternOS 中 Agent 的持续学习和能力积累。

4. STALE: LLM Agent 能知道自己的记忆已经过时了吗？

🔗 https://arxiv.org/abs/2605.06527

💡 一句话：揭示 Agent 记忆系统的"隐式冲突"盲区——后续观察推翻了早期记忆但没有显式否定，最强模型也只有 55.2% 准确率。提出 CUPMem 原型，通过结构化状态合并和传播感知搜索来解决。

🎯 关联：⭐⭐⭐⭐ 高 — Agent 平台的 memory 模块必须处理信息过时问题。这篇的三维探测框架（状态解析/前提抵抗/隐式策略适应）可以作为 InternOS 记忆系统的测试标准。

5. StraTA: 用策略轨迹抽象增强 Agent 强化学习

🔗 https://arxiv.org/abs/2605.06642

💡 一句话：在 Agent RL 训练中引入显式的"轨迹级策略"——先从任务状态采样一个紧凑策略，再以此条件化后续动作，用分层 GRPO 联合训练。ALFWorld 93.1%、WebShop 84.2%，SciWorld 超越闭源前沿模型。

🎯 关联：⭐⭐⭐⭐ 高 — Agent 规划和长期决策的训练方法论。如果 InternOS 未来要做 Agent 行为的 RL 微调，StraTA 的分层策略抽象是一个很好的技术方向。

6. PrefixGuard: 从 Agent 执行轨迹中自动合成在线失败预警监控器

🔗 https://arxiv.org/abs/2605.06455

💡 一句话：Agent 执行长链任务时，等最终结果出来再检查太晚了。PrefixGuard 从历史 trace 中自动学习轻量级前缀监控器，能在执行过程中实时预警失败，比 LLM judge 方案更高效可靠。

🎯 关联：⭐⭐⭐⭐ 高 — Agent 平台的可观测性和运维层。InternOS 协调系统需要实时监控各 Agent 执行状态、提前发现异常，PrefixGuard 的 trace-to-monitor 范式可以直接借鉴。

7. RGAO: 基于检索的自适应拓扑选择 + 可证明预算守恒的多 Agent 代码生成

🔗 https://arxiv.org/abs/2605.05657

💡 一句话：多 Agent 代码生成系统的编排拓扑应该根据代码结构复杂度动态选择。RGAO 用分层代码索引提取复杂度向量来路由编排拓扑，并提出形式化的六维预算代数，确保动态拓扑切换下资源守恒。NeurIPS 2026 投稿。

🎯 关联：⭐⭐⭐⭐ 高 — 代码生成是 Agent 平台的核心应用场景。"复杂度驱动的拓扑路由 + 形式化资源预算" 这套思路对 InternOS 中任务调度和资源管控有直接参考价值。

8. SAT: 无协调器的即插即用多 LLM 协同训练

🔗 https://arxiv.org/abs/2605.05216

💡 一句话：把多 Agent 团队表示为分解策略，用块坐标更新逐个训练 Agent，无需中央协调器。理论保证单调改进 + 即插即用不变性（换入更强模型不用重训其他 Agent）。3 个 4B 模型组队超越 Qwen3-32B。AAMAS 2026。

🎯 关联：⭐⭐⭐⭐ 高 — 多 Agent 系统的训练范式。"即插即用"特性对 InternOS 平台特别有价值——允许独立升级单个 Agent 而不影响整体系统。

📌 本周趋势观察：多 Agent 系统的编排效率和协调机制是本周最热话题（LATTE、MASPO、SAT、RGAO），Memory 管理（STALE、SkillOS）和运行时监控（PrefixGuard）也在快速成熟。建议 Anna 重点关注 LATTE 和 MASPO，与 InternOS 当前架构关联最直接。