Agent & LLM · 2026年5月16日

每日论文速递 · Agent & LLM

💡 一句话：不改模型、不改工具实现，纯执行层框架让 LLM 的 tool calling 变成异步并发——解码和函数执行重叠进行，有依赖关系的自动串行，没有的并行跑。LLM 竟然天然能推理 symbolic future（未解析的占位结果）。

2026-05-16 09:03:487 篇论文条目

arXiv:2605.15077 arXiv:2605.15132 arXiv:2605.15040 arXiv:2605.13848 arXiv:2605.15041 arXiv:2605.13850 arXiv:2605.15177

I have enough high-quality papers now. Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期：2026-05-16

1. AsyncFC：基于 Future 的 LLM 异步函数调用

Concurrency without Model Changes: Future-based Asynchronous Function Calling for LLMs

🔗 https://arxiv.org/abs/2605.15077

🎯 关联：极高。InternOS 如果涉及多工具编排，这个 AsyncFC 的设计思路直接可用——Agent 发起多个 tool call 后不阻塞等结果，而是继续推理。跟你之前考虑的调度/并发执行模型高度相关。

2. APWA：面向可并行化 Agent 工作流的分布式架构

APWA: A Distributed Architecture for Parallelizable Agentic Workflows

🔗 https://arxiv.org/abs/2605.15132

💡 一句话：把复杂 Agent 任务拆成互不干扰的子问题，分配到独立资源并行处理，不需要子问题之间交叉通信。在现有系统完全跑不动的大规模任务上实现了有效 scaling。

🎯 关联：高。如果 InternOS 需要处理批量并发的组织协调任务（比如同时处理多个部门的请求），APWA 的"非干扰子问题分解"策略是个很好的参考架构。

3. Orchard：开源 Agent 建模框架（微软出品）

Orchard: An Open-Source Agentic Modeling Framework

🔗 https://arxiv.org/abs/2605.15040

💡 一句话：微软开源的 Agent 训练框架，核心是 Orchard Env——一个轻量的 sandbox 环境服务层，统一了 coding agent、GUI agent、personal assistant 三个场景的数据蒸馏+SFT+RL pipeline。Qwen3-30B 的 coding agent 在 SWE-bench Verified 上干到 67.5%，开源 SOTA。

🎯 关联：极高。这个框架的设计理念跟你帮朋友探讨的 AI sandbox 方案直接对标——sandbox 生命周期管理、harness-agnostic 环境层、agent 训练 recipe。值得细读架构。

4. GraphBit：基于 DAG 的确定性 Agent 编排引擎

GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

🔗 https://arxiv.org/abs/2605.13848

💡 一句话：用显式 DAG 定义 Agent 工作流（不是让 LLM 自己 prompt 路由），Rust 引擎管控状态转移和工具调用。三层 memory 架构（临时/结构化/外部连接器）隔离上下文，防止长流水线的 context 膨胀。GAIA benchmark 上 67.6% 准确率，零框架级幻觉。

🎯 关联：极高。这跟 InternOS 的 Kernel 设计思路有交集——确定性编排 vs LLM 自由路由，三层 memory 隔离 vs 你的 memory 管理。特别是"防止 cascading context bloat"这个问题，长链路 Agent 都会遇到。

5. CAST：基于案例的自适应推理校准，优化 LLM Tool Use

Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use

🔗 https://arxiv.org/abs/2605.15041

💡 一句话：把历史执行轨迹当作 case library，从中提取复杂度特征和失败模式，让 Agent 在 RL 阶段自动学会"这种任务该想多深、哪种结构错误要避开"。执行准确率提升 5.85pp，推理长度压缩 26%。

🎯 关联：高。InternOS 如果要做承诺跟踪/执行质量改进，"从历史轨迹中学习什么该想深、什么该快速执行"是个直接可用的思路。

6. AI Agent 设计模式的二维分类框架

A Two-Dimensional Framework for AI Agent Design Patterns: Cognitive Function and Execution Topology

🔗 https://arxiv.org/abs/2605.13850

💡 一句话：提出 7×6 的分类矩阵——纵轴是认知功能（Context Engineering / Memory / Reasoning / Action / Reflection / Collaboration / Governance），横轴是执行拓扑（Chain / Route / Parallel / Orchestrate / Loop / Hierarchy）。识别出 27 种命名模式，并给出 5 条模式选择的经验法则。

🎯 关联：高。这是个很好的架构思考工具。你在设计 InternOS 的 7 Kernel 时可以用这个矩阵做 sanity check——每个 Kernel 在认知功能和执行拓扑两个维度上分别是什么，有没有覆盖盲区。

7. OpenDeepThink：基于 Bradley-Terry 配对比较的并行推理

OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation

🔗 https://arxiv.org/abs/2605.15177

💡 一句话：不是让一条推理链想得更深，而是并行采样多个候选方案，用 LLM 做两两配对打分（Bradley-Terry 模型）选最优解。Gemini 3.1 Pro 的 Codeforces Elo 涨了 405 分，8 轮 LLM 调用 27 分钟搞定。

🎯 关联：中高。如果 InternOS 面对复杂决策场景（多个可能的行动方案），这种"并行生成+配对评估"比单链推理更稳。Test-time compute scaling 的新范式。

本日总评：今天产出密度很高。AsyncFC 和 GraphBit 对你的 Agent 平台架构有直接参考价值——一个解决工具调用并发，一个解决编排确定性和 memory 隔离。Orchard 对 sandbox 方案有对标意义。建议优先看 AsyncFC 和 GraphBit 的论文全文。