A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年5月10日

每日论文速递 · Agent & LLM

💡 一句话:提出 LATTE 框架,让多个 LLM Agent 动态构建和维护共享的协调图(编码子任务依赖、分配和进度),在保持一致性的同时实现动态分工和自适应协调,token 用量、耗时和冲突全面优于 MetaGPT 等基线。

I now have all the papers I need. I have 8 highly relevant papers with complete abstracts. Let me compile the final report.

📄 每日论文速递 · Agent & LLM

日期:2026-05-10


1. LATTE: Language Agent Teams for Task Evolution — 用自适应任务图提升多智能体协作效率

💡 一句话:提出 LATTE 框架,让多个 LLM Agent 动态构建和维护共享的协调图(编码子任务依赖、分配和进度),在保持一致性的同时实现动态分工和自适应协调,token 用量、耗时和冲突全面优于 MetaGPT 等基线。

🎯 关联:⭐⭐⭐⭐⭐ 极高 — 这篇直接对标 InternOS 的组织协调系统设计。共享协调图 + 动态任务发现 + 去中心化分工,正是 Agent 平台编排层的核心问题。建议精读。


2. MASPO: 面向 LLM 多智能体系统的联合 Prompt 优化

💡 一句话:多 Agent 系统中各 Agent 的 prompt 不能孤立优化——MASPO 用联合评估机制(按下游 Agent 成功率来评估上游 prompt)+ 演化束搜索,自动迭代优化整个系统的 prompt,ICML 2026 接收。

🎯 关联:⭐⭐⭐⭐⭐ 极高 — Agent 平台中最头疼的问题之一就是多 Agent 间的 prompt 联调。这个框架可以直接集成到 InternOS 的 Agent 编排流程中做自动调优。


3. SkillOS: 让 Agent 通过 RL 学会自我进化的技能管理

💡 一句话:提出用强化学习训练一个"技能策展人",自动从 Agent 历史经验中提炼、更新和组织可复用技能库(SkillRepo),让 Agent 在处理流式任务时越来越强,且技能策展策略可泛化到不同执行器和任务域。

🎯 关联:⭐⭐⭐⭐⭐ 极高 — Agent 平台的 memory/skill 层设计参考。SkillRepo 的"经验驱动自进化"思路直接适用于 InternOS 中 Agent 的持续学习和能力积累。


4. STALE: LLM Agent 能知道自己的记忆已经过时了吗?

💡 一句话:揭示 Agent 记忆系统的"隐式冲突"盲区——后续观察推翻了早期记忆但没有显式否定,最强模型也只有 55.2% 准确率。提出 CUPMem 原型,通过结构化状态合并和传播感知搜索来解决。

🎯 关联:⭐⭐⭐⭐ 高 — Agent 平台的 memory 模块必须处理信息过时问题。这篇的三维探测框架(状态解析/前提抵抗/隐式策略适应)可以作为 InternOS 记忆系统的测试标准。


5. StraTA: 用策略轨迹抽象增强 Agent 强化学习

💡 一句话:在 Agent RL 训练中引入显式的"轨迹级策略"——先从任务状态采样一个紧凑策略,再以此条件化后续动作,用分层 GRPO 联合训练。ALFWorld 93.1%、WebShop 84.2%,SciWorld 超越闭源前沿模型。

🎯 关联:⭐⭐⭐⭐ 高 — Agent 规划和长期决策的训练方法论。如果 InternOS 未来要做 Agent 行为的 RL 微调,StraTA 的分层策略抽象是一个很好的技术方向。


6. PrefixGuard: 从 Agent 执行轨迹中自动合成在线失败预警监控器

💡 一句话:Agent 执行长链任务时,等最终结果出来再检查太晚了。PrefixGuard 从历史 trace 中自动学习轻量级前缀监控器,能在执行过程中实时预警失败,比 LLM judge 方案更高效可靠。

🎯 关联:⭐⭐⭐⭐ 高 — Agent 平台的可观测性和运维层。InternOS 协调系统需要实时监控各 Agent 执行状态、提前发现异常,PrefixGuard 的 trace-to-monitor 范式可以直接借鉴。


7. RGAO: 基于检索的自适应拓扑选择 + 可证明预算守恒的多 Agent 代码生成

💡 一句话:多 Agent 代码生成系统的编排拓扑应该根据代码结构复杂度动态选择。RGAO 用分层代码索引提取复杂度向量来路由编排拓扑,并提出形式化的六维预算代数,确保动态拓扑切换下资源守恒。NeurIPS 2026 投稿。

🎯 关联:⭐⭐⭐⭐ 高 — 代码生成是 Agent 平台的核心应用场景。"复杂度驱动的拓扑路由 + 形式化资源预算" 这套思路对 InternOS 中任务调度和资源管控有直接参考价值。


8. SAT: 无协调器的即插即用多 LLM 协同训练

💡 一句话:把多 Agent 团队表示为分解策略,用块坐标更新逐个训练 Agent,无需中央协调器。理论保证单调改进 + 即插即用不变性(换入更强模型不用重训其他 Agent)。3 个 4B 模型组队超越 Qwen3-32B。AAMAS 2026。

🎯 关联:⭐⭐⭐⭐ 高 — 多 Agent 系统的训练范式。"即插即用"特性对 InternOS 平台特别有价值——允许独立升级单个 Agent 而不影响整体系统。


📌 本周趋势观察:多 Agent 系统的编排效率协调机制是本周最热话题(LATTE、MASPO、SAT、RGAO),Memory 管理(STALE、SkillOS)和运行时监控(PrefixGuard)也在快速成熟。建议 Anna 重点关注 LATTE 和 MASPO,与 InternOS 当前架构关联最直接。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-05-10 09:03:30
源文件
2026-05-10_09-03-30.md
链接数
8