Agent & LLM · 2026年5月13日
每日论文速递 · Agent & LLM
💡 一句话:提出端到端框架让 Agent 学会在 GUI 操作和 API 工具调用之间做最优切换,通过分阶段 RL 训练在 OSWorld-MCP 上达到 46.85% 准确率(相对提升 66%)。
I now have enough high-quality papers. Let me compile the report.
📄 每日论文速递 · Agent & LLM
日期:2026-05-13
1. ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents
(ToolCUA:面向计算机使用智能体的最优 GUI-工具路径编排)
🔗 https://arxiv.org/abs/2605.12481
💡 一句话:提出端到端框架让 Agent 学会在 GUI 操作和 API 工具调用之间做最优切换,通过分阶段 RL 训练在 OSWorld-MCP 上达到 46.85% 准确率(相对提升 66%)。
🎯 关联:极高 — 直接解决 Agent 在混合动作空间中的编排调度问题,对 InternOS 中多工具协调路径选择有直接参考价值。
2. MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments
(MCP-Cosmos:世界模型增强的 MCP 环境复杂任务执行框架)
🔗 https://arxiv.org/abs/2605.09131
💡 一句话:在 MCP 协议生态中引入世界模型,让 Agent 执行前先在潜空间模拟状态转移、预判工具调用结果,提出"自带世界模型"(BYOWM) 策略。
🎯 关联:极高 — MCP + Agent + 预测性规划的组合,跟 InternOS 做系统级任务编排的思路高度吻合。
3. Goal-Oriented Reasoning for RAG-based Memory in Conversational Agentic LLM Systems
(面向目标推理的对话式 Agent 系统 RAG 记忆框架)
🔗 https://arxiv.org/abs/2605.12213
💡 一句话:提出 Goal-Mem,用反向链式推理从用户目标出发分解子目标、精准检索记忆,解决 Agent 长期交互中多跳推理和隐式推断问题。
🎯 关联:高 — Agent 记忆系统设计核心难题,Goal-Mem 的子目标分解 + 定向检索模式可直接应用于 InternOS 的长程任务记忆管理。
4. Skill-R1: Agent Skill Evolution via Reinforcement Learning
(Skill-R1:基于强化学习的 Agent 技能进化)
🔗 https://arxiv.org/abs/2605.09359
💡 一句话:训练轻量 skill generator 来为冻结的任务 LLM 生成可复用技能描述,通过双层 RL 目标实现技能的跨代际持续进化,兼容黑盒模型。
🎯 关联:高 — "技能"作为可复用自然语言程序驱动 Agent 规划,与 AI Agent 平台的技能/工具库设计理念一致;黑盒兼容性对接入多模型很有价值。
5. Deterministic vs. LLM-Controlled Orchestration for COBOL-to-Python Modernization
(确定性编排 vs. LLM 控制编排:代码现代化实证对比)
🔗 https://arxiv.org/abs/2605.09894
💡 一句话:在结构化代码迁移工作流中,固定执行策略比全 Agent 编排更稳定、token 消耗降 3.5x,但准确率相当——说明不是所有环节都需要 Agent 自主控制。
🎯 关联:高 — 对 InternOS 的核心架构决策有直接启发:哪些环节用确定性流程、哪些交给 LLM 自主编排,这篇给出了实证答案。
6. Predictive Maps of Multi-Agent Reasoning: A Successor-Representation Spectrum for LLM Communication Topologies
(多 Agent 推理的预测性映射:LLM 通信拓扑的后继表示谱分析)
🔗 https://arxiv.org/abs/2605.11453
💡 一句话:用后继表示矩阵的谱特性(谱半径、谱隙、条件数)预测多 Agent LLM 系统在不同通信拓扑下的漂移、共识和鲁棒性失败模式。
🎯 关联:中高 — 为多 Agent 系统选择通信拓扑(链式/星形/网状)提供了理论诊断工具,对 InternOS 多智能体协调架构选型有参考意义。
7. RepoZero: Can LLMs Generate a Code Repository from Scratch?
(RepoZero:LLM 能从零生成完整代码仓库吗?)
🔗 https://arxiv.org/abs/2605.07122
💡 一句话:首个支持全自动执行验证的仓库级代码生成 benchmark,提出迭代测试生成+错误驱动修复的 Agent 框架(ACE),最强模型也仅 30-55% 通过率。
🎯 关联:中高 — 如果 Agent 平台要支持代码生成任务,这是当前能力边界的最新度量;ACE 框架的 test-time scaling 思路值得借鉴。
8. EvidenT: An Evidence-Preserving Framework for Iterative System-Level Package Repair
(EvidenT:保留证据链的系统级包修复迭代框架)
🔗 https://arxiv.org/abs/2605.08621
💡 一句话:将 LLM 修复解耦为"证据管理层 + 工具执行层",通过保留完整修复历史和构建反馈闭环,在 219 个真实构建失败中修复率达 54%(超 agentic baseline 2.6x)。
🎯 关联:中高 — "证据保留 + 闭环验证"的架构思想适用于任何需要迭代执行和诊断的 Agent 系统设计。