Agent & LLM · 2026年5月19日
每日论文速递 · Agent & LLM
💡 把 agentic workflow 建模为在线渐进暴露的 DAG,在异构 GPU 集群(A100/H100/H200)上做 prefill-decode 分离调度,以 workflow 级别的端到端延迟为优化目标而不是单次 LLM call,SLO 达标率提升 20-80%。
I now have all the data I need. Let me compile the final report with the 7 most relevant papers for Anna.
📄 每日论文速递 · Agent & LLM
日期:2026-05-19
1. HexAGenT: Efficient Agentic LLM Serving via Workflow- and Heterogeneity-Aware Scheduling
HexAGenT:面向工作流感知和异构集群的高效 Agent LLM 推理调度
🔗 https://arxiv.org/abs/2605.16637
📅 2026-05-15
💡 把 agentic workflow 建模为在线渐进暴露的 DAG,在异构 GPU 集群(A100/H100/H200)上做 prefill-decode 分离调度,以 workflow 级别的端到端延迟为优化目标而不是单次 LLM call,SLO 达标率提升 20-80%。
🎯 直接相关。Anna 做 InternOS 的调度和编排层,这篇直接对标——它把 agent 的多步工作流当成调度单元,而不是单个请求。思路可以直接映射到 InternOS 的 Kernel 调度设计:任务依赖是运行时才暴露的 DAG,调度器需要在不完整信息下做全局最优。
2. Web Agents Should Adopt the Plan-Then-Execute Paradigm
Web Agent 应该采用"先规划后执行"范式
🔗 https://arxiv.org/abs/2605.14290
📅 2026-05-14
💡 直接挑战 ReAct 作为 agent 默认架构的地位——论证 web agent 应该用 plan-then-execute 而不是 ReAct,因为 ReAct 让不受信的网页内容直接影响控制流,形成 prompt injection 攻击面。WebArena 80% 的任务用纯程序化计划就能完成。
🎯 高度相关。这是一个关于 agent 架构范式的根本性论点。Anna 在设计 Agent 平台时需要考虑:ReAct 的灵活性和 plan-then-execute 的安全性/可审计性之间的 tradeoff。论文的核心观点"这是基础设施问题而非模型问题"跟 InternOS 的定位完全对齐。
3. Orchard: An Open-Source Agentic Modeling Framework
Orchard:开源 Agent 建模框架
🔗 https://arxiv.org/abs/2605.15040
📅 2026-05-14
💡 微软出品的开源 agent 训练框架。核心是 Orchard Env——一个轻量级环境服务层,提供 sandbox 生命周期管理的可复用原语。在 SWE-bench Verified 上用 Qwen3-30B 达到 67.5%(开源 SOTA),还做了 GUI agent 和个人助手 agent 的训练。
🎯 直接相关。这就是 Anna 在做的事情的一个参照系——环境服务层 + agent harness + 多领域复用。特别值得看他们的 sandbox lifecycle management 设计和 credit-assignment SFT(从失败轨迹中学习有效片段)。
4. Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems
超越个体智能:LLM 多智能体系统中的协作、失败归因与自我进化综述
🔗 https://arxiv.org/abs/2605.14892
📅 2026-05-14
💡 提出 LIFE 四阶段框架(奠基能力→协作集成→故障归因→自主进化),第一次把多智能体的协作、错误诊断和自我改进这三条研究线串起来做因果分析,不只是罗列工作。
🎯 参考价值高。InternOS 本质上就是一个多 agent 协调系统。这篇综述的 "故障归因" 和 "自我进化" 部分直接对应 Anna 思考过的错误传播和系统自适应问题。LIFE 框架可以作为设计 InternOS 反馈回路的概念参考。
5. LOOP Skill Engine: 99% Success and 99% Token Reduction via One-Shot Recording and Deterministic Replay
LOOP 技能引擎:一次录制+确定性重放,成功率 99%、token 消耗降 99%
🔗 https://arxiv.org/abs/2605.14237
📅 2026-05-14
💡 针对重复性 agent 任务的杀手设计:第一次执行时用 LLM 完整推理并录制工具调用轨迹,提取成参数化模板(Loop Skill),之后所有执行完全绕过 LLM,确定性重放。月 token 消耗降 93-99%,延迟降 8.7x。
🎯 非常实用。这个思路对 InternOS 的重复性工作流有直接参考价值——日报、周报、定期检查这类任务,第一次 LLM 编排完毕后变成确定性执行计划,后续不再消耗 LLM。本质上是在做"agent 经验的固化"。
6. Making OpenAPI Documentation Agent-Ready: Detecting Documentation and REST Smells with a Multi-Agent LLM System
让 OpenAPI 文档 Agent 可用:用多 Agent 系统检测文档和 REST API 的"坏味道"
🔗 https://arxiv.org/abs/2605.14312
📅 2026-05-14
💡 工业实践:把 16 个生产 REST API(600 个 endpoint)暴露给 MCP agent 时,发现 agent 在任务规划、工具选择、payload 构建上系统性失败。根本原因不是模型不行,而是 OpenAPI 文档的语义质量不够。他们开发了 Hermes 系统自动检测 2450 个文档"坏味道"。
🎯 直接实战参考。如果 InternOS 或 Agent 平台要接入外部 API/工具,这篇的教训很值钱:"结构上合法的 API 文档不等于语义上对 agent 可用"。MCP 生态也是 Anna 关注的方向。
7. SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks
SPIN:面向工业任务的结构化 LLM 规划
🔗 https://arxiv.org/abs/2605.14051
📅 2026-05-13
💡 LLM 做规划时经常输出结构无效或冗余的工作流。SPIN 强制要求规划输出为合法 DAG,通过验证+修复 prompt 确保可执行性,再用前缀执行(够回答就停)减少不必要的工具调用。工具调用量从 11.8 降到 6.8/次。
🎯 架构层面有参考。"规划输出必须是合法 DAG"这个约束和 Anna 的 InternOS 设计直接相关——任务分解和调度需要结构化的依赖图,而不是自由文本的"接下来做什么"。DAG 验证 + 修复的循环可以直接用。
今日点评:这周 agent 架构领域爆发了。两个大趋势很明显:一是从 ReAct 到结构化规划的范式转移(#2 和 #7 都在推这个方向),二是agent 工作流作为一等公民进入系统调度层(#1)。对 Anna 来说,#1 HexAGenT 和 #5 LOOP 最值得细看——一个解决"怎么高效调度 agent 工作流",一个解决"怎么把 agent 经验固化成确定性执行"。