Agent & LLM · 2026年5月13日

每日论文速递 · Agent & LLM

💡 一句话：提出端到端框架让 Agent 学会在 GUI 操作和 API 工具调用之间做最优切换，通过分阶段 RL 训练在 OSWorld-MCP 上达到 46.85% 准确率（相对提升 66%）。

2026-05-13 09:06:108 篇论文条目

I now have enough high-quality papers. Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期：2026-05-13

1. ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

（ToolCUA：面向计算机使用智能体的最优 GUI-工具路径编排）

🎯 关联：极高 — 直接解决 Agent 在混合动作空间中的编排调度问题，对 InternOS 中多工具协调路径选择有直接参考价值。

2. MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

（MCP-Cosmos：世界模型增强的 MCP 环境复杂任务执行框架）

💡 一句话：在 MCP 协议生态中引入世界模型，让 Agent 执行前先在潜空间模拟状态转移、预判工具调用结果，提出"自带世界模型"(BYOWM) 策略。

🎯 关联：极高 — MCP + Agent + 预测性规划的组合，跟 InternOS 做系统级任务编排的思路高度吻合。

3. Goal-Oriented Reasoning for RAG-based Memory in Conversational Agentic LLM Systems

（面向目标推理的对话式 Agent 系统 RAG 记忆框架）

💡 一句话：提出 Goal-Mem，用反向链式推理从用户目标出发分解子目标、精准检索记忆，解决 Agent 长期交互中多跳推理和隐式推断问题。

🎯 关联：高 — Agent 记忆系统设计核心难题，Goal-Mem 的子目标分解 + 定向检索模式可直接应用于 InternOS 的长程任务记忆管理。

4. Skill-R1: Agent Skill Evolution via Reinforcement Learning

（Skill-R1：基于强化学习的 Agent 技能进化）

💡 一句话：训练轻量 skill generator 来为冻结的任务 LLM 生成可复用技能描述，通过双层 RL 目标实现技能的跨代际持续进化，兼容黑盒模型。

🎯 关联：高 — "技能"作为可复用自然语言程序驱动 Agent 规划，与 AI Agent 平台的技能/工具库设计理念一致；黑盒兼容性对接入多模型很有价值。

5. Deterministic vs. LLM-Controlled Orchestration for COBOL-to-Python Modernization

（确定性编排 vs. LLM 控制编排：代码现代化实证对比）

💡 一句话：在结构化代码迁移工作流中，固定执行策略比全 Agent 编排更稳定、token 消耗降 3.5x，但准确率相当——说明不是所有环节都需要 Agent 自主控制。

🎯 关联：高 — 对 InternOS 的核心架构决策有直接启发：哪些环节用确定性流程、哪些交给 LLM 自主编排，这篇给出了实证答案。

6. Predictive Maps of Multi-Agent Reasoning: A Successor-Representation Spectrum for LLM Communication Topologies

（多 Agent 推理的预测性映射：LLM 通信拓扑的后继表示谱分析）

💡 一句话：用后继表示矩阵的谱特性（谱半径、谱隙、条件数）预测多 Agent LLM 系统在不同通信拓扑下的漂移、共识和鲁棒性失败模式。

🎯 关联：中高 — 为多 Agent 系统选择通信拓扑（链式/星形/网状）提供了理论诊断工具，对 InternOS 多智能体协调架构选型有参考意义。

7. RepoZero: Can LLMs Generate a Code Repository from Scratch?

（RepoZero：LLM 能从零生成完整代码仓库吗？）

💡 一句话：首个支持全自动执行验证的仓库级代码生成 benchmark，提出迭代测试生成+错误驱动修复的 Agent 框架(ACE)，最强模型也仅 30-55% 通过率。

🎯 关联：中高 — 如果 Agent 平台要支持代码生成任务，这是当前能力边界的最新度量；ACE 框架的 test-time scaling 思路值得借鉴。

8. EvidenT: An Evidence-Preserving Framework for Iterative System-Level Package Repair

（EvidenT：保留证据链的系统级包修复迭代框架）

💡 一句话：将 LLM 修复解耦为"证据管理层 + 工具执行层"，通过保留完整修复历史和构建反馈闭环，在 219 个真实构建失败中修复率达 54%（超 agentic baseline 2.6x）。

🎯 关联：中高 — "证据保留 + 闭环验证"的架构思想适用于任何需要迭代执行和诊断的 Agent 系统设计。