Agent & LLM · 2026年5月16日
每日论文速递 · Agent & LLM
💡 一句话:不改模型、不改工具实现,纯执行层框架让 LLM 的 tool calling 变成异步并发——解码和函数执行重叠进行,有依赖关系的自动串行,没有的并行跑。LLM 竟然天然能推理 symbolic future(未解析的占位结果)。
I have enough high-quality papers now. Let me compile the report.
📄 每日论文速递 · Agent & LLM
日期:2026-05-16
1. AsyncFC:基于 Future 的 LLM 异步函数调用
Concurrency without Model Changes: Future-based Asynchronous Function Calling for LLMs
🔗 https://arxiv.org/abs/2605.15077
💡 一句话:不改模型、不改工具实现,纯执行层框架让 LLM 的 tool calling 变成异步并发——解码和函数执行重叠进行,有依赖关系的自动串行,没有的并行跑。LLM 竟然天然能推理 symbolic future(未解析的占位结果)。
🎯 关联:极高。InternOS 如果涉及多工具编排,这个 AsyncFC 的设计思路直接可用——Agent 发起多个 tool call 后不阻塞等结果,而是继续推理。跟你之前考虑的调度/并发执行模型高度相关。
2. APWA:面向可并行化 Agent 工作流的分布式架构
APWA: A Distributed Architecture for Parallelizable Agentic Workflows
🔗 https://arxiv.org/abs/2605.15132
💡 一句话:把复杂 Agent 任务拆成互不干扰的子问题,分配到独立资源并行处理,不需要子问题之间交叉通信。在现有系统完全跑不动的大规模任务上实现了有效 scaling。
🎯 关联:高。如果 InternOS 需要处理批量并发的组织协调任务(比如同时处理多个部门的请求),APWA 的"非干扰子问题分解"策略是个很好的参考架构。
3. Orchard:开源 Agent 建模框架(微软出品)
Orchard: An Open-Source Agentic Modeling Framework
🔗 https://arxiv.org/abs/2605.15040
💡 一句话:微软开源的 Agent 训练框架,核心是 Orchard Env——一个轻量的 sandbox 环境服务层,统一了 coding agent、GUI agent、personal assistant 三个场景的数据蒸馏+SFT+RL pipeline。Qwen3-30B 的 coding agent 在 SWE-bench Verified 上干到 67.5%,开源 SOTA。
🎯 关联:极高。这个框架的设计理念跟你帮朋友探讨的 AI sandbox 方案直接对标——sandbox 生命周期管理、harness-agnostic 环境层、agent 训练 recipe。值得细读架构。
4. GraphBit:基于 DAG 的确定性 Agent 编排引擎
GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration
🔗 https://arxiv.org/abs/2605.13848
💡 一句话:用显式 DAG 定义 Agent 工作流(不是让 LLM 自己 prompt 路由),Rust 引擎管控状态转移和工具调用。三层 memory 架构(临时/结构化/外部连接器)隔离上下文,防止长流水线的 context 膨胀。GAIA benchmark 上 67.6% 准确率,零框架级幻觉。
🎯 关联:极高。这跟 InternOS 的 Kernel 设计思路有交集——确定性编排 vs LLM 自由路由,三层 memory 隔离 vs 你的 memory 管理。特别是"防止 cascading context bloat"这个问题,长链路 Agent 都会遇到。
5. CAST:基于案例的自适应推理校准,优化 LLM Tool Use
Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use
🔗 https://arxiv.org/abs/2605.15041
💡 一句话:把历史执行轨迹当作 case library,从中提取复杂度特征和失败模式,让 Agent 在 RL 阶段自动学会"这种任务该想多深、哪种结构错误要避开"。执行准确率提升 5.85pp,推理长度压缩 26%。
🎯 关联:高。InternOS 如果要做承诺跟踪/执行质量改进,"从历史轨迹中学习什么该想深、什么该快速执行"是个直接可用的思路。
6. AI Agent 设计模式的二维分类框架
A Two-Dimensional Framework for AI Agent Design Patterns: Cognitive Function and Execution Topology
🔗 https://arxiv.org/abs/2605.13850
💡 一句话:提出 7×6 的分类矩阵——纵轴是认知功能(Context Engineering / Memory / Reasoning / Action / Reflection / Collaboration / Governance),横轴是执行拓扑(Chain / Route / Parallel / Orchestrate / Loop / Hierarchy)。识别出 27 种命名模式,并给出 5 条模式选择的经验法则。
🎯 关联:高。这是个很好的架构思考工具。你在设计 InternOS 的 7 Kernel 时可以用这个矩阵做 sanity check——每个 Kernel 在认知功能和执行拓扑两个维度上分别是什么,有没有覆盖盲区。
7. OpenDeepThink:基于 Bradley-Terry 配对比较的并行推理
OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation
🔗 https://arxiv.org/abs/2605.15177
💡 一句话:不是让一条推理链想得更深,而是并行采样多个候选方案,用 LLM 做两两配对打分(Bradley-Terry 模型)选最优解。Gemini 3.1 Pro 的 Codeforces Elo 涨了 405 分,8 轮 LLM 调用 27 分钟搞定。
🎯 关联:中高。如果 InternOS 面对复杂决策场景(多个可能的行动方案),这种"并行生成+配对评估"比单链推理更稳。Test-time compute scaling 的新范式。
本日总评:今天产出密度很高。AsyncFC 和 GraphBit 对你的 Agent 平台架构有直接参考价值——一个解决工具调用并发,一个解决编排确定性和 memory 隔离。Orchard 对 sandbox 方案有对标意义。建议优先看 AsyncFC 和 GraphBit 的论文全文。