Agent & LLM · 2026年5月29日

每日论文速递 · Agent & LLM

💡 一句话：把 LLM 推理和实时调度解耦成双流架构——Reactive Stream 跑毫秒级符号启发式做即时派工，Deliberative Stream 让 LLM 在后台合成/验证/进化调度规则，通过 sandbox 测试后原子更新部署，不阻塞控制循环。

2026-05-29 09:06:067 篇论文条目

arXiv:2605.29262 arXiv:2605.28617 arXiv:2605.29511 arXiv:2605.30314 arXiv:2605.30335 arXiv:2605.29861 arXiv:2605.30353

I now have all the papers I need. Let me compile the daily digest.

📄 每日论文速递 · Agent & LLM

日期：2026-05-29

1. RACE-Sched: Harmonizing Real-Time Constraints and Long-Horizon Reasoning — 异步 Agent 框架用于动态调度

🔗 https://arxiv.org/abs/2605.29262

🎯 关联：极高。这篇的双流异步架构（快反应 + 慢推理）和 sandbox 验证后热部署的模式，跟 InternOS 的"跨订单调度 + Agent 编排"思路高度吻合。特别是它处理"LLM 推理延迟 vs 工业控制实时性"这个矛盾的方式，可以直接映射到 InternOS 里"Agent 决策延迟 vs 任务执行实时性"的设计约束。

2. LACUNA: Safe Agents as Recursive Program Holes — 安全 Agent 即递归程序空洞

🔗 https://arxiv.org/abs/2605.28617

💡 一句话：提出一种编程模型，让 Agent 动作以 agent[T](task) 的形式嵌入宿主程序，LLM 在执行到该处时才填充代码，且填入的代码必须通过类型检查才能运行——被拒绝的动作不会改变环境状态，编译诊断信息驱动重试。用这个原语统一表达了 ReAct loop、子 Agent、技能、并行分解和多模型规划。

🎯 关联：极高。这是 Agent 安全执行模型的正经形式化方案。你在做 InternOS 的 Agent 平台时，"Agent 写了代码但执行失败怎么回滚"、"怎么限制 Agent 能调用哪些工具"——LACUNA 的类型检查 + 原子接受/拒绝设计是一种很干净的解法。

3. DynaGraph: 基于动态拓扑重构的轻量级多模型交互框架

🔗 https://arxiv.org/abs/2605.29511

💡 一句话：不用一个大模型硬扛复杂推理，而是在共享基座模型上用时分复用 PEFT adapter 做多角色，再通过 Evaluator 持续监控执行置信度来触发分层自愈——局部数据缺失做 Fine-grained Patching，严重逻辑断裂做 Subgraph Reconstruction。8B 模型在 StrategyQA 上逼近 72B 单体，延迟降 68%。

🎯 关联：高。多 Agent 系统的核心问题之一就是"每个 Agent 都调一个大模型太贵了"。DynaGraph 的"一个基座 + 多 adapter 时分复用"方案，对 InternOS 里需要跑多个专业化 Agent 的场景是个很实际的部署思路。

4. SpecBench: 评估软件工程 LLM Agent 的规格级推理能力

🔗 https://arxiv.org/abs/2605.30314

💡 一句话：现有的 SWE-Bench 只测"给你需求，写代码"——但实际软件开发中，需求本身经常是不完整、有矛盾的。SpecBench 从 Kubernetes、React、Rust、TVM、vLLM 的真实 RFC 流程中提取任务，让 Agent 去找设计提案中的遗漏、歧义、矛盾和错误假设。最强 Agent（GPT-5.4）才 44.4% 准确率。

🎯 关联：高。这直接点出了"AI Agent 做软件工程"的下一个瓶颈不是写代码，而是理解和审查规格。如果你在 InternOS 里考虑让 Agent 参与需求分析或设计审查，这篇的 benchmark 设计思路值得参考。

5. Locally Coherent, Globally Incoherent: 多组件 LLM Agent 的组合不一致性边界

🔗 https://arxiv.org/abs/2605.30335

💡 一句话：多个 LLM 组件各自看到部分问题时，每个单独都合理，但组合起来会违反基本概率公理。论文形式化了这个"局部一致、全局矛盾"的失败模式，给出了运行时可计算的不一致性度量，以及基于 Boyle-Dykstra 投影的确定性修复方法。在四模型 panel 上，33-94% 的集团出现不一致。

🎯 关联：高。InternOS 如果用多个 Agent 分别处理子任务再汇总，这篇指出的"每个 Agent 都对但合起来矛盾"问题是绕不过去的。它的运行时一致性监控和投影修复机制，是多 Agent 编排系统的理论基础。

6. Ptah: 面向可验证多模态深度研究的多 Agent 编排框架

🔗 https://arxiv.org/abs/2605.29861

💡 一句话：把"从用户查询到生成完整网页报告"的全流程拆成 planning → research → writing 三阶段，由专业化 Agent 分工——视觉感知规划 Agent、证据收集 Agent（带 Visual Working Memory）、写作 Agent、以及一个 Verifier Agent 作为验收函数，全程强制事实溯源和跨模态一致性。

🎯 关联：中高。这种"多阶段 + 专业化 Agent + 验证 Agent 做质量关卡"的编排模式，跟 InternOS 的任务分解和质量控制思路很像。特别是 Verifier Agent 作为 acceptance function 的设计，可以类比到 InternOS 里的承诺验证机制。

7. Physics Is All You Need? — 物理学家监督 AI Agent 开发科学软件的量化案例

🔗 https://arxiv.org/abs/2605.30353

💡 一句话：一个物理学家用 Claude Code 花 12 天 57 个 session 造了一个 JAX 模块。核心发现：Agent 在 33/57 个 session 里反复在错误的代码架构内调参数（治标不治本），无法自己发现需要推翻架构重来——只有人类注入物理概念才触发了重设计。结论：监督设计（supervision design）而非模型能力，决定了 Agent 输出是否可信。

🎯 关联：中高。这篇对"人类如何有效监督 AI Agent"的实证分析非常有参考价值。Anna 在做 Agent 平台时需要思考的核心问题之一就是：Agent 在什么情况下需要人类介入？这篇给出的三条关键监督实践（多参数点测试、跨 session changelog、禁止无物理意义的数值补丁）可以泛化到其他领域。

本日点评：今天的收获很实在。RACE-Sched 的双流异步架构和 LACUNA 的类型安全执行模型是两个直接可以影响 InternOS 架构设计的论文。DynaGraph 解决多 Agent 部署成本问题，SpecBench 指出 AI SE 的下一个方向。如果只看两篇，先看 RACE-Sched 和 LACUNA。