A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年5月17日

每日论文速递 · Agent & LLM

💡 一句话:微软团队发布了一个开源 Agent 训练框架,核心是轻量级的环境服务层 Orchard Env,在上面跑了三套 recipe(SWE 代码修复、GUI 操作、个人助手),其中 coding agent 基于 Qwen3-30B 在 SWE-bench Verified 上干到 67.5%,开源同尺寸 SOTA。

I have enough high-quality papers now. Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期:2026-05-17


1. Orchard: An Open-Source Agentic Modeling Framework

开源 Agent 建模框架

💡 一句话:微软团队发布了一个开源 Agent 训练框架,核心是轻量级的环境服务层 Orchard Env,在上面跑了三套 recipe(SWE 代码修复、GUI 操作、个人助手),其中 coding agent 基于 Qwen3-30B 在 SWE-bench Verified 上干到 67.5%,开源同尺寸 SOTA。

🎯 关联:极高。这篇直接解决了"怎么训一个好的 Agent"的问题——环境抽象层 + 可复用的 harness 设计思路,跟 Anna 做 Agent 平台的架构分层逻辑高度一致。尤其是 credit-assignment SFT(从失败轨迹中学习有效片段)和 sandbox lifecycle management 的设计,值得仔细看。


2. APWA: A Distributed Architecture for Parallelizable Agentic Workflows

可并行化 Agent 工作流的分布式架构

💡 一句话:提出了 Agent-Parallel Workload Architecture,把复杂任务分解成互不干扰的子问题并行执行,不需要跨 agent 通信,在其他系统完全跑不动的大规模任务上实现了动态 scale。

🎯 关联:很高。InternOS 本质上也在做任务分解和调度——这篇的"非干扰子问题分解"思路可以直接映射到你的跨订单调度设计。特别是它怎么判断哪些子问题可以安全并行、哪些必须串行,这个决策逻辑有参考价值。


3. CAST: Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use

基于案例的自适应推理校准框架

💡 一句话:把历史执行轨迹当"案例库",从中提取复杂度特征和失败模式,让 LLM 在 RL 训练中自动学会"该花多少力气思考",在 tool-use benchmark 上提升 5.85 个百分点,推理长度缩短 26%。

🎯 关联:。这就是 Agent memory 的一种实现——用历史执行案例来校准未来行为。跟你在 InternOS 里考虑的承诺跟踪机制有异曲同工之处:系统从过去的执行记录中学习,调整后续策略。


4. LOOP Skill Engine: One-Shot Recording and Deterministic Replay

LOOP 技能引擎:一次录制、确定性重放

💡 一句话:对于重复性 Agent 任务,第一次用 LLM 完整推理并录制 tool-call 轨迹,提取成参数化模板后,后续执行完全绕过 LLM 做确定性重放,月度 token 消耗降低 93%-99.98%,延迟降 8.7 倍。

🎯 关联:。这个"录制-模板化-重放"的思路对 Agent 平台的成本控制非常实用。如果你的 Agent 平台上有大量重复性工作流(比如日报生成、定期检查),这种模式可以直接砍掉绝大部分 LLM 调用成本。


5. OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation

OpenDeepThink: 基于 Bradley-Terry 的并行推理

💡 一句话:test-time compute scaling 的新方法——并行生成多个候选推理路径,用 LLM 两两对比 + Bradley-Terry 排名选出最优,然后淘汰弱的、进化强的。给 Gemini 3.1 Pro 的 Codeforces Elo 加了 405 分,整个过程 27 分钟。

🎯 关联:中高。这是把"推理质量"当成可工程化优化的资源来管理——多路并行 + 竞争选择。如果 InternOS 里涉及对 Agent 输出质量的自动评估和筛选,这个 pairwise ranking 的思路比简单的 scoring 靠谱。


6. RepoZero: Can LLMs Generate a Code Repository from Scratch?

RepoZero: LLM 能从零生成整个代码仓库吗?

💡 一句话:第一个支持全自动、基于执行的仓库级代码生成 benchmark。核心思路是让 Agent 只看 API spec 重新实现整个仓库,用输出等价性做黑盒验证。最强 Agent 也只能达到 30%-55% pass rate,暴露了巨大差距。

🎯 关联:中高。如果你关注 coding agent 的实际能力边界,这篇给了一个很清醒的评估。它提出的 Agentic Code-Test Evolution (ACE) 框架——迭代生成测试 + 错误驱动修正——也是一个可以复用的 Agent 设计模式。


7. ScioMind: Cognitively Grounded Multi-Agent Social Simulation

ScioMind: 认知驱动的多智能体社会模拟

💡 一句话:做了一套有认知基础的多 Agent 模拟框架——记忆锚定的信念更新规则 + 层级记忆架构 + 动态 Agent profile,让多 Agent 交互产生的行为模式更接近真实社会心理学规律。

🎯 关联:。记忆锚定(memory-anchored belief update)和动态 profile 的设计可以启发 InternOS 中 Agent 状态管理的思路——比如 Agent 的"经验"如何影响后续决策权重,以及不同角色的 Agent 如何维持差异化行为。


本周亮点总结:这几天最值得深入看的是 Orchard(Agent 训练基础设施的完整方案)和 APWA(并行 Agent 工作流架构)。前者解决"怎么训好 Agent",后者解决"怎么让多 Agent 跑得快"——两个都是你做平台绕不开的问题。LOOP Skill Engine 虽然论文写得花哨,但那个"录制-重放"的工程直觉是对的,成本优化的时候可以参考。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-05-17 09:04:31
源文件
2026-05-17_09-04-31.md
链接数
7