Agent & LLM · 2026年5月29日
每日论文速递 · Agent & LLM
💡 一句话:把 LLM 推理和实时调度解耦成双流架构——Reactive Stream 跑毫秒级符号启发式做即时派工,Deliberative Stream 让 LLM 在后台合成/验证/进化调度规则,通过 sandbox 测试后原子更新部署,不阻塞控制循环。
I now have all the papers I need. Let me compile the daily digest.
📄 每日论文速递 · Agent & LLM
日期:2026-05-29
1. RACE-Sched: Harmonizing Real-Time Constraints and Long-Horizon Reasoning — 异步 Agent 框架用于动态调度
🔗 https://arxiv.org/abs/2605.29262
💡 一句话:把 LLM 推理和实时调度解耦成双流架构——Reactive Stream 跑毫秒级符号启发式做即时派工,Deliberative Stream 让 LLM 在后台合成/验证/进化调度规则,通过 sandbox 测试后原子更新部署,不阻塞控制循环。
🎯 关联:极高。这篇的双流异步架构(快反应 + 慢推理)和 sandbox 验证后热部署的模式,跟 InternOS 的"跨订单调度 + Agent 编排"思路高度吻合。特别是它处理"LLM 推理延迟 vs 工业控制实时性"这个矛盾的方式,可以直接映射到 InternOS 里"Agent 决策延迟 vs 任务执行实时性"的设计约束。
2. LACUNA: Safe Agents as Recursive Program Holes — 安全 Agent 即递归程序空洞
🔗 https://arxiv.org/abs/2605.28617
💡 一句话:提出一种编程模型,让 Agent 动作以 agent[T](task) 的形式嵌入宿主程序,LLM 在执行到该处时才填充代码,且填入的代码必须通过类型检查才能运行——被拒绝的动作不会改变环境状态,编译诊断信息驱动重试。用这个原语统一表达了 ReAct loop、子 Agent、技能、并行分解和多模型规划。
🎯 关联:极高。这是 Agent 安全执行模型的正经形式化方案。你在做 InternOS 的 Agent 平台时,"Agent 写了代码但执行失败怎么回滚"、"怎么限制 Agent 能调用哪些工具"——LACUNA 的类型检查 + 原子接受/拒绝设计是一种很干净的解法。
3. DynaGraph: 基于动态拓扑重构的轻量级多模型交互框架
🔗 https://arxiv.org/abs/2605.29511
💡 一句话:不用一个大模型硬扛复杂推理,而是在共享基座模型上用时分复用 PEFT adapter 做多角色,再通过 Evaluator 持续监控执行置信度来触发分层自愈——局部数据缺失做 Fine-grained Patching,严重逻辑断裂做 Subgraph Reconstruction。8B 模型在 StrategyQA 上逼近 72B 单体,延迟降 68%。
🎯 关联:高。多 Agent 系统的核心问题之一就是"每个 Agent 都调一个大模型太贵了"。DynaGraph 的"一个基座 + 多 adapter 时分复用"方案,对 InternOS 里需要跑多个专业化 Agent 的场景是个很实际的部署思路。
4. SpecBench: 评估软件工程 LLM Agent 的规格级推理能力
🔗 https://arxiv.org/abs/2605.30314
💡 一句话:现有的 SWE-Bench 只测"给你需求,写代码"——但实际软件开发中,需求本身经常是不完整、有矛盾的。SpecBench 从 Kubernetes、React、Rust、TVM、vLLM 的真实 RFC 流程中提取任务,让 Agent 去找设计提案中的遗漏、歧义、矛盾和错误假设。最强 Agent(GPT-5.4)才 44.4% 准确率。
🎯 关联:高。这直接点出了"AI Agent 做软件工程"的下一个瓶颈不是写代码,而是理解和审查规格。如果你在 InternOS 里考虑让 Agent 参与需求分析或设计审查,这篇的 benchmark 设计思路值得参考。
5. Locally Coherent, Globally Incoherent: 多组件 LLM Agent 的组合不一致性边界
🔗 https://arxiv.org/abs/2605.30335
💡 一句话:多个 LLM 组件各自看到部分问题时,每个单独都合理,但组合起来会违反基本概率公理。论文形式化了这个"局部一致、全局矛盾"的失败模式,给出了运行时可计算的不一致性度量,以及基于 Boyle-Dykstra 投影的确定性修复方法。在四模型 panel 上,33-94% 的集团出现不一致。
🎯 关联:高。InternOS 如果用多个 Agent 分别处理子任务再汇总,这篇指出的"每个 Agent 都对但合起来矛盾"问题是绕不过去的。它的运行时一致性监控和投影修复机制,是多 Agent 编排系统的理论基础。
6. Ptah: 面向可验证多模态深度研究的多 Agent 编排框架
🔗 https://arxiv.org/abs/2605.29861
💡 一句话:把"从用户查询到生成完整网页报告"的全流程拆成 planning → research → writing 三阶段,由专业化 Agent 分工——视觉感知规划 Agent、证据收集 Agent(带 Visual Working Memory)、写作 Agent、以及一个 Verifier Agent 作为验收函数,全程强制事实溯源和跨模态一致性。
🎯 关联:中高。这种"多阶段 + 专业化 Agent + 验证 Agent 做质量关卡"的编排模式,跟 InternOS 的任务分解和质量控制思路很像。特别是 Verifier Agent 作为 acceptance function 的设计,可以类比到 InternOS 里的承诺验证机制。
7. Physics Is All You Need? — 物理学家监督 AI Agent 开发科学软件的量化案例
🔗 https://arxiv.org/abs/2605.30353
💡 一句话:一个物理学家用 Claude Code 花 12 天 57 个 session 造了一个 JAX 模块。核心发现:Agent 在 33/57 个 session 里反复在错误的代码架构内调参数(治标不治本),无法自己发现需要推翻架构重来——只有人类注入物理概念才触发了重设计。结论:监督设计(supervision design)而非模型能力,决定了 Agent 输出是否可信。
🎯 关联:中高。这篇对"人类如何有效监督 AI Agent"的实证分析非常有参考价值。Anna 在做 Agent 平台时需要思考的核心问题之一就是:Agent 在什么情况下需要人类介入?这篇给出的三条关键监督实践(多参数点测试、跨 session changelog、禁止无物理意义的数值补丁)可以泛化到其他领域。
本日点评:今天的收获很实在。RACE-Sched 的双流异步架构和 LACUNA 的类型安全执行模型是两个直接可以影响 InternOS 架构设计的论文。DynaGraph 解决多 Agent 部署成本问题,SpecBench 指出 AI SE 的下一个方向。如果只看两篇,先看 RACE-Sched 和 LACUNA。