Agent & LLM · 2026年5月19日

每日论文速递 · Agent & LLM

💡 把 agentic workflow 建模为在线渐进暴露的 DAG，在异构 GPU 集群（A100/H100/H200）上做 prefill-decode 分离调度，以 workflow 级别的端到端延迟为优化目标而不是单次 LLM call，SLO 达标率提升 20-80%。

2026-05-19 09:05:397 篇论文条目

arXiv:2605.16637 arXiv:2605.14290 arXiv:2605.15040 arXiv:2605.14892 arXiv:2605.14237 arXiv:2605.14312 arXiv:2605.14051

I now have all the data I need. Let me compile the final report with the 7 most relevant papers for Anna.

📄 每日论文速递 · Agent & LLM

日期：2026-05-19

1. HexAGenT: Efficient Agentic LLM Serving via Workflow- and Heterogeneity-Aware Scheduling

HexAGenT：面向工作流感知和异构集群的高效 Agent LLM 推理调度

🔗 https://arxiv.org/abs/2605.16637

📅 2026-05-15

🎯 直接相关。Anna 做 InternOS 的调度和编排层，这篇直接对标——它把 agent 的多步工作流当成调度单元，而不是单个请求。思路可以直接映射到 InternOS 的 Kernel 调度设计：任务依赖是运行时才暴露的 DAG，调度器需要在不完整信息下做全局最优。

2. Web Agents Should Adopt the Plan-Then-Execute Paradigm

Web Agent 应该采用"先规划后执行"范式

🔗 https://arxiv.org/abs/2605.14290

📅 2026-05-14

💡 直接挑战 ReAct 作为 agent 默认架构的地位——论证 web agent 应该用 plan-then-execute 而不是 ReAct，因为 ReAct 让不受信的网页内容直接影响控制流，形成 prompt injection 攻击面。WebArena 80% 的任务用纯程序化计划就能完成。

🎯 高度相关。这是一个关于 agent 架构范式的根本性论点。Anna 在设计 Agent 平台时需要考虑：ReAct 的灵活性和 plan-then-execute 的安全性/可审计性之间的 tradeoff。论文的核心观点"这是基础设施问题而非模型问题"跟 InternOS 的定位完全对齐。

3. Orchard: An Open-Source Agentic Modeling Framework

Orchard：开源 Agent 建模框架

🔗 https://arxiv.org/abs/2605.15040

📅 2026-05-14

💡 微软出品的开源 agent 训练框架。核心是 Orchard Env——一个轻量级环境服务层，提供 sandbox 生命周期管理的可复用原语。在 SWE-bench Verified 上用 Qwen3-30B 达到 67.5%（开源 SOTA），还做了 GUI agent 和个人助手 agent 的训练。

🎯 直接相关。这就是 Anna 在做的事情的一个参照系——环境服务层 + agent harness + 多领域复用。特别值得看他们的 sandbox lifecycle management 设计和 credit-assignment SFT（从失败轨迹中学习有效片段）。

4. Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

超越个体智能：LLM 多智能体系统中的协作、失败归因与自我进化综述

🔗 https://arxiv.org/abs/2605.14892

📅 2026-05-14

💡 提出 LIFE 四阶段框架（奠基能力→协作集成→故障归因→自主进化），第一次把多智能体的协作、错误诊断和自我改进这三条研究线串起来做因果分析，不只是罗列工作。

🎯 参考价值高。InternOS 本质上就是一个多 agent 协调系统。这篇综述的 "故障归因" 和 "自我进化" 部分直接对应 Anna 思考过的错误传播和系统自适应问题。LIFE 框架可以作为设计 InternOS 反馈回路的概念参考。

5. LOOP Skill Engine: 99% Success and 99% Token Reduction via One-Shot Recording and Deterministic Replay

LOOP 技能引擎：一次录制+确定性重放，成功率 99%、token 消耗降 99%

🔗 https://arxiv.org/abs/2605.14237

📅 2026-05-14

💡 针对重复性 agent 任务的杀手设计：第一次执行时用 LLM 完整推理并录制工具调用轨迹，提取成参数化模板（Loop Skill），之后所有执行完全绕过 LLM，确定性重放。月 token 消耗降 93-99%，延迟降 8.7x。

🎯 非常实用。这个思路对 InternOS 的重复性工作流有直接参考价值——日报、周报、定期检查这类任务，第一次 LLM 编排完毕后变成确定性执行计划，后续不再消耗 LLM。本质上是在做"agent 经验的固化"。

6. Making OpenAPI Documentation Agent-Ready: Detecting Documentation and REST Smells with a Multi-Agent LLM System

让 OpenAPI 文档 Agent 可用：用多 Agent 系统检测文档和 REST API 的"坏味道"

🔗 https://arxiv.org/abs/2605.14312

📅 2026-05-14

💡 工业实践：把 16 个生产 REST API（600 个 endpoint）暴露给 MCP agent 时，发现 agent 在任务规划、工具选择、payload 构建上系统性失败。根本原因不是模型不行，而是 OpenAPI 文档的语义质量不够。他们开发了 Hermes 系统自动检测 2450 个文档"坏味道"。

🎯 直接实战参考。如果 InternOS 或 Agent 平台要接入外部 API/工具，这篇的教训很值钱："结构上合法的 API 文档不等于语义上对 agent 可用"。MCP 生态也是 Anna 关注的方向。

7. SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

SPIN：面向工业任务的结构化 LLM 规划

🔗 https://arxiv.org/abs/2605.14051

📅 2026-05-13

💡 LLM 做规划时经常输出结构无效或冗余的工作流。SPIN 强制要求规划输出为合法 DAG，通过验证+修复 prompt 确保可执行性，再用前缀执行（够回答就停）减少不必要的工具调用。工具调用量从 11.8 降到 6.8/次。

🎯 架构层面有参考。"规划输出必须是合法 DAG"这个约束和 Anna 的 InternOS 设计直接相关——任务分解和调度需要结构化的依赖图，而不是自由文本的"接下来做什么"。DAG 验证 + 修复的循环可以直接用。

今日点评：这周 agent 架构领域爆发了。两个大趋势很明显：一是从 ReAct 到结构化规划的范式转移（#2 和 #7 都在推这个方向），二是agent 工作流作为一等公民进入系统调度层（#1）。对 Anna 来说，#1 HexAGenT 和 #5 LOOP 最值得细看——一个解决"怎么高效调度 agent 工作流"，一个解决"怎么把 agent 经验固化成确定性执行"。