Agent & LLM · 2026年5月15日

每日论文速递 · Agent & LLM

💡 一句话：微软出品的开源 Agent 训练框架，核心是一个轻量环境服务层 Orchard Env，统一了 sandbox 生命周期管理。在此之上构建了三个 recipe：Orchard-SWE（代码 agent，SWE-bench Verified 67.5% SOTA）、Orchard-GUI（4B 视觉 agent 做 computer use）、Orchard-Claw（个人助理 agent）。关键点：用 credit-assi

2026-05-15 09:11:347 篇论文条目

arXiv:2605.15040 arXiv:2605.15132 arXiv:2605.13850 arXiv:2605.15041 arXiv:2605.12294 arXiv:2605.14237 arXiv:2605.14634

I now have all the information I need. Let me compile the report with the 7 most relevant papers.

📄 每日论文速递 · Agent & LLM

日期：2026-05-15

1. Orchard: An Open-Source Agentic Modeling Framework

Orchard：开源 Agent 建模框架

🔗 https://arxiv.org/abs/2605.15040

🎯 关联：极高。这篇直接对标 Anna 做的 AI Agent 平台方向——sandbox lifecycle management、agent 训练 pipeline、多领域统一环境层。Orchard Env 的设计思路（harness-agnostic 环境抽象）值得对照 InternOS 的架构设计来看。

2. APWA: A Distributed Architecture for Parallelizable Agentic Workflows

APWA：可并行 Agent 工作流的分布式架构

🔗 https://arxiv.org/abs/2605.15132

💡 一句话：解决多 agent 系统在任务规模增大时的协调瓶颈——把工作流拆成不需要交叉通信的独立子问题，实现真正的并行执行。支持异构数据和多种并行模式，在之前系统完全跑不动的大规模任务上能动态扩展。

🎯 关联：高。InternOS 做组织协调，本质上也是工作流编排。APWA 把 workflow 分解为 non-interfering subproblems 的思路，和 Anna 之前聊的跨订单调度、任务分解逻辑高度契合。

3. A Two-Dimensional Framework for AI Agent Design Patterns: Cognitive Function and Execution Topology

AI Agent 设计模式的二维分类框架：认知功能 × 执行拓扑

🔗 https://arxiv.org/abs/2605.13850

💡 一句话：提出 7×6 矩阵分类 agent 架构——纵轴是认知功能（Context Engineering、Memory、Reasoning、Action、Reflection、Collaboration、Governance），横轴是执行拓扑（Chain、Route、Parallel、Orchestrate、Loop、Hierarchy），识别出 27 种命名模式。还总结了 5 条 pattern 选择的经验定律。

🎯 关联：高。这篇是 agent 架构设计的元框架，Anna 在做 InternOS 的 7 Kernel 架构时可以用这个分类体系来验证自己的设计覆盖度——比如你的 kernel 映射到这个 7×6 矩阵的哪些格子？有没有盲区？

4. CAST: Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use

CAST：基于案例的 LLM 工具调用自适应推理校准

🔗 https://arxiv.org/abs/2605.15041

💡 一句话：把历史执行轨迹当"案例库"，从中提取复杂度 profile 和失败 profile，用来动态调整 LLM 的推理深度和工具调用策略。效果：整体执行准确率提升 5.85pp，推理长度减少 26%，显著减少结构性错误。

🎯 关联：高。Agent 平台绕不开 tool use 的可靠性问题。CAST 的 case-based 方法本质上是一种 agent memory 机制——用历史经验指导未来决策，和 Anna 之前讨论的承诺跟踪/经验积累逻辑相通。

5. Executable Agentic Memory for GUI Agent

GUI Agent 的可执行式记忆

🔗 https://arxiv.org/abs/2605.12294

💡 一句话：不再让 LLM 每一步都重新解读 UI，而是构建一个知识图谱（KG）作为结构化记忆，把 GUI 操作规划从"自由生成"变成"检索+执行"。用 MCTS + Q-function 做图搜索，AndroidWorld 上比 UI-TARS-7B 高 19.6%，token 成本降 6 倍。

🎯 关联：中高。这篇对 agent memory 的工程化实现有参考价值——把经验沉淀成可执行的 KG 而非纯文本记忆。InternOS 如果要做任务自动化的记忆层，这个 retrieval-and-execution 的范式比 naive RAG 更靠谱。

6. LOOP Skill Engine: 99% Success and 99% Token Reduction via One-Shot Recording and Deterministic Replay

LOOP 技能引擎：一次录制、确定性重放，实现 99% 成功率和 99% token 节省

🔗 https://arxiv.org/abs/2605.14237

💡 一句话：针对 agent 做重复性周期任务的痛点——第一次用 LLM 正常推理并记录完整 tool-call 轨迹，之后全部确定性重放，彻底绕开 LLM。月 token 消耗降 93-99.98%，延迟降 8.7x。理论证明了重放确定性和并发写安全。

🎯 关联：中高。思路很有启发——agent 不是每次都要"思考"，重复任务应该沉淀成确定性 skill。这对 InternOS 的调度系统有直接参考：高频重复的协调任务可以模板化，只在异常时回退到 LLM。

7. RustPrint: Documentation-Guided Agentic Codebase Migration from C to Rust

RustPrint：文档驱动的 Agent 式代码库迁移（C → Rust）

🔗 https://arxiv.org/abs/2605.14634

💡 一句话：先把源码仓库转成架构感知的文档（捕获模块结构、数据流、API、设计意图），再让 coding agent 用这个文档作为迁移蓝图。通过源/目标文档对比发现不匹配来驱动修复。8 个真实 C 仓库（11K-84K LoC）全部编译通过，功能保留率 93.26%。

🎯 关联：中。这篇展示了 documentation-as-blueprint 的 agent 协调范式——先理解再执行，用文档层做 agent 间的信息对齐。对 InternOS 里多 agent 协作时如何共享上下文有启发。

今日总评：今天的论文质量很高，Orchard 和 APWA 两篇直接对标 agent 平台和工作流并行化，design pattern 那篇适合用来审视 InternOS 架构完备性。CAST 和 LOOP 两篇分别从"案例记忆"和"技能模板化"两个角度解决 agent 可靠性和效率问题——这两个思路值得组合起来看。