Agent & LLM · 2026年5月17日

每日论文速递 · Agent & LLM

💡 一句话：微软团队发布了一个开源 Agent 训练框架，核心是轻量级的环境服务层 Orchard Env，在上面跑了三套 recipe（SWE 代码修复、GUI 操作、个人助手），其中 coding agent 基于 Qwen3-30B 在 SWE-bench Verified 上干到 67.5%，开源同尺寸 SOTA。

2026-05-17 09:04:317 篇论文条目

arXiv:2605.15040 arXiv:2605.15132 arXiv:2605.15041 arXiv:2605.14237 arXiv:2605.15177 arXiv:2605.07122 arXiv:2605.13725

I have enough high-quality papers now. Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期：2026-05-17

1. Orchard: An Open-Source Agentic Modeling Framework

开源 Agent 建模框架

🔗 https://arxiv.org/abs/2605.15040

🎯 关联：极高。这篇直接解决了"怎么训一个好的 Agent"的问题——环境抽象层 + 可复用的 harness 设计思路，跟 Anna 做 Agent 平台的架构分层逻辑高度一致。尤其是 credit-assignment SFT（从失败轨迹中学习有效片段）和 sandbox lifecycle management 的设计，值得仔细看。

2. APWA: A Distributed Architecture for Parallelizable Agentic Workflows

可并行化 Agent 工作流的分布式架构

🔗 https://arxiv.org/abs/2605.15132

💡 一句话：提出了 Agent-Parallel Workload Architecture，把复杂任务分解成互不干扰的子问题并行执行，不需要跨 agent 通信，在其他系统完全跑不动的大规模任务上实现了动态 scale。

🎯 关联：很高。InternOS 本质上也在做任务分解和调度——这篇的"非干扰子问题分解"思路可以直接映射到你的跨订单调度设计。特别是它怎么判断哪些子问题可以安全并行、哪些必须串行，这个决策逻辑有参考价值。

3. CAST: Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use

基于案例的自适应推理校准框架

🔗 https://arxiv.org/abs/2605.15041

💡 一句话：把历史执行轨迹当"案例库"，从中提取复杂度特征和失败模式，让 LLM 在 RL 训练中自动学会"该花多少力气思考"，在 tool-use benchmark 上提升 5.85 个百分点，推理长度缩短 26%。

🎯 关联：高。这就是 Agent memory 的一种实现——用历史执行案例来校准未来行为。跟你在 InternOS 里考虑的承诺跟踪机制有异曲同工之处：系统从过去的执行记录中学习，调整后续策略。

4. LOOP Skill Engine: One-Shot Recording and Deterministic Replay

LOOP 技能引擎：一次录制、确定性重放

🔗 https://arxiv.org/abs/2605.14237

💡 一句话：对于重复性 Agent 任务，第一次用 LLM 完整推理并录制 tool-call 轨迹，提取成参数化模板后，后续执行完全绕过 LLM 做确定性重放，月度 token 消耗降低 93%-99.98%，延迟降 8.7 倍。

🎯 关联：高。这个"录制-模板化-重放"的思路对 Agent 平台的成本控制非常实用。如果你的 Agent 平台上有大量重复性工作流（比如日报生成、定期检查），这种模式可以直接砍掉绝大部分 LLM 调用成本。

5. OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation

OpenDeepThink: 基于 Bradley-Terry 的并行推理

🔗 https://arxiv.org/abs/2605.15177

💡 一句话：test-time compute scaling 的新方法——并行生成多个候选推理路径，用 LLM 两两对比 + Bradley-Terry 排名选出最优，然后淘汰弱的、进化强的。给 Gemini 3.1 Pro 的 Codeforces Elo 加了 405 分，整个过程 27 分钟。

🎯 关联：中高。这是把"推理质量"当成可工程化优化的资源来管理——多路并行 + 竞争选择。如果 InternOS 里涉及对 Agent 输出质量的自动评估和筛选，这个 pairwise ranking 的思路比简单的 scoring 靠谱。

6. RepoZero: Can LLMs Generate a Code Repository from Scratch?

RepoZero: LLM 能从零生成整个代码仓库吗？

🔗 https://arxiv.org/abs/2605.07122

💡 一句话：第一个支持全自动、基于执行的仓库级代码生成 benchmark。核心思路是让 Agent 只看 API spec 重新实现整个仓库，用输出等价性做黑盒验证。最强 Agent 也只能达到 30%-55% pass rate，暴露了巨大差距。

🎯 关联：中高。如果你关注 coding agent 的实际能力边界，这篇给了一个很清醒的评估。它提出的 Agentic Code-Test Evolution (ACE) 框架——迭代生成测试 + 错误驱动修正——也是一个可以复用的 Agent 设计模式。

7. ScioMind: Cognitively Grounded Multi-Agent Social Simulation

ScioMind: 认知驱动的多智能体社会模拟

🔗 https://arxiv.org/abs/2605.13725

💡 一句话：做了一套有认知基础的多 Agent 模拟框架——记忆锚定的信念更新规则 + 层级记忆架构 + 动态 Agent profile，让多 Agent 交互产生的行为模式更接近真实社会心理学规律。

🎯 关联：中。记忆锚定（memory-anchored belief update）和动态 profile 的设计可以启发 InternOS 中 Agent 状态管理的思路——比如 Agent 的"经验"如何影响后续决策权重，以及不同角色的 Agent 如何维持差异化行为。

本周亮点总结：这几天最值得深入看的是 Orchard（Agent 训练基础设施的完整方案）和 APWA（并行 Agent 工作流架构）。前者解决"怎么训好 Agent"，后者解决"怎么让多 Agent 跑得快"——两个都是你做平台绕不开的问题。LOOP Skill Engine 虽然论文写得花哨，但那个"录制-重放"的工程直觉是对的，成本优化的时候可以参考。