Agent & LLM · 2026年5月30日

每日论文速递 · Agent & LLM

💡 一句话：用 JSON Patch 替代 agent 之间的自然语言对话——每个 agent 对共享结构化状态提交 patch，由确定性 kernel 做 schema 校验 + 写权限 + 事务提交，ALFWorld 上 84.6% 成功率，token 消耗只有 LangGraph 的 1/8。

2026-05-30 09:05:027 篇论文条目

arXiv:2605.29313 arXiv:2605.25746 arXiv:2605.28617 arXiv:2605.30335 arXiv:2605.30314 arXiv:2605.29861 arXiv:2605.29511

I now have 7 excellent papers. Let me compile the final report. All papers are from May 2026, submitted within the last few days. Let me compile:

1. PatchBoard (2605.29313) - Schema-grounded state mutation for multi-agent collaboration — extremely relevant to InternOS

2. MACA (2605.25746) - Multi-agent coordination adaptation via structure-guided orchestration

3. LACUNA (2605.28617) - Safe agents as recursive program holes (type-safe agent architecture)

4. Ptah (2605.29861) - Multi-agent harness for deep research with Visual Working Memory

5. Compositional Incoherence (2605.30335) - Bounding incoherence in multi-component LLM agents

6. SpecBench (2605.30314) - Evaluating specification-level reasoning for SWE agents

7. DynaGraph (2605.29511) - Lightweight multi-model interaction via dynamic topological reconfiguration

📄 每日论文速递 · Agent & LLM

日期：2026-05-30

1. PatchBoard: Schema-Grounded State Mutation for Reliable and Auditable LLM Multi-Agent Collaboration

PatchBoard：基于 Schema 的状态变更机制，用于可靠可审计的 LLM 多智能体协作

🔗 https://arxiv.org/abs/2605.29313

📅 提交于 2026-05-28

🎯 关联度：⭐⭐⭐⭐⭐ 这篇直接命中 InternOS 的核心设计问题。你在做的 Kernel 调度和状态管理，这篇论文的「Architect agent 构建 task-specific schema → deterministic kernel 做 mutation 校验」模式，跟你的 7-Kernel 架构思路高度一致。JSON Patch 做状态变更而不是自由对话，这个思路值得直接借鉴。

2. MACA: Multi-Agent Coordination Adaptation via Structure-Guided Orchestration

MACA：基于结构引导编排的多智能体协调自适应框架

🔗 https://arxiv.org/abs/2605.25746

📅 提交于 2026-05-25

💡 一句话：把多 agent 协调建模为 structure + orchestration 的联合后验推断——学一个 task/budget-conditioned 的结构先验（哪些 agent 参与、怎么连接），然后用 policy-based orchestration 做近似推断。比纯动态 agent 基线高 8.42%，token 少 43%。

🎯 关联度：⭐⭐⭐⭐⭐ 这篇论文精准描述了你在做的问题：结构稳定性 vs 动态适应性的两难。InternOS 的调度层如果要做跨 agent 编排，MACA 的「先验结构 + 后验编排」是一个比纯 ReAct 或纯 DAG 更成熟的框架。特别是 budget-conditioned 这点——你早晚要考虑 token 预算约束。

3. LACUNA: Safe Agents as Recursive Program Holes

LACUNA：将安全 Agent 建模为递归程序空洞

🔗 https://arxiv.org/abs/2605.28617

📅 提交于 2026-05-27

💡 一句话：提出 agent[T](task) 原语——LLM 填充的代码在执行前做类型检查，rejected action 不影响环境状态，编译错误驱动重试。ReAct loop、sub-agent、并行分解统一表达为普通控制流。Martin Odersky（Scala 之父）参与。

🎯 关联度：⭐⭐⭐⭐ 这篇的核心洞察是：让 model-written code 塑造 runtime，但通过类型系统约束安全边界。如果你后续考虑让 InternOS 的 agent 有更强的自定义行为能力（不只是调工具），LACUNA 的 typed-hole 模式是很优雅的安全方案。rejected = 回滚 + retry 的设计也很实用。

4. Locally Coherent, Globally Incoherent: Bounding Compositional Incoherence in Multi-Component LLM Agents

局部一致但全局矛盾：多组件 LLM Agent 的组合不一致性边界

🔗 https://arxiv.org/abs/2605.30335

📅 提交于 2026-05-28

💡 一句话：多组件 agent 系统里，每个组件单独看都 coherent，但组合起来可能违反概率公理。论文形式化了这个 failure mode，定义了 compositional residual ε，并给出了运行时可计算的检测 + 确定性修复方法。在 4-LLM panel 上，33-94% 的 clique 存在 ε > 0。

🎯 关联度：⭐⭐⭐⭐ 这是一个你设计多 agent 系统必须正视的理论问题。InternOS 如果有多个 Kernel 各自决策再组合结果，这篇论文说的「每个都对但合起来矛盾」是真实会发生的。ICML 2026 三个 workshop 都接了，说明社区认可度高。

5. SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents

SpecBench：评估软件工程 LLM Agent 的规格级推理能力

🔗 https://arxiv.org/abs/2605.30314

📅 提交于 2026-05-28

💡 一句话：SWE-Bench 只测「给定 spec 写代码」，SpecBench 测「spec 本身有没有问题」——从 Kubernetes、React、Rust、TVM、vLLM 的 RFC 流程中构建任务，让 agent 找出设计提案里的遗漏/歧义/矛盾。GPT-5.4 最好也只有 44.4%。

🎯 关联度：⭐⭐⭐⭐ 如果你在做 agent 辅助的软件开发流程（InternOS 本身也需要迭代设计），这篇指出了一个关键能力缺口：当前 agent 擅长按 spec 写代码，但不擅长审查 spec 本身。这对你评估 AI pair-programming 的实际价值有直接参考。

6. Ptah: Towards Verifiable Multimodal Deep Research — A Multi-Agent Harness for Interleaved Report Generation

Ptah：面向可验证的多模态深度研究——多智能体交织式报告生成框架

🔗 https://arxiv.org/abs/2605.29861

📅 提交于 2026-05-28

💡 一句话：多 agent 框架 Ptah 通过 planning → research → writing 三阶段生成多模态报告，核心设计是 Visual Working Memory（跨 agent 的图像状态管理）+ verifier agent 做全流程事实/引用/跨模态一致性检查。

🎯 关联度：⭐⭐⭐ 多 agent 的 lifecycle 编排（plan → collect → write → verify）和 InternOS 的任务分解思路同构。Visual Working Memory 的概念值得注意——如果 InternOS 处理的任务涉及多模态信息，这种跨 agent 的 memory 设计是可以借鉴的。

7. DynaGraph: Lightweight Multi-Model Interaction Framework via Dynamic Topological Reconfiguration

DynaGraph：基于动态拓扑重构的轻量级多模型交互框架

🔗 https://arxiv.org/abs/2605.29511

📅 提交于 2026-05-28

💡 一句话：在单卡 GPU 上用时分 PEFT adapter 复用同一个 base model 模拟多个「agent」，通过 Evaluator 实时监控执行置信度，触发两级自愈：Fine-grained Patching（局部数据补丁）和 Subgraph Reconstruction（严重逻辑断裂时重构子图）。8B 模型逼近 72B 效果。

🎯 关联度：⭐⭐⭐ 这篇解决的是资源约束下的多 agent 部署问题。如果 InternOS 要在有限算力下跑多 agent，adapter 复用 + 动态拓扑的思路比每个 agent 开一个独立 LLM 实例高效得多。自愈机制的两级设计也有参考价值。

本周趋势观察： 这周 agent 论文明显聚焦在结构化状态管理和组合可靠性——PatchBoard 的 JSON Patch、LACUNA 的 typed holes、MACA 的结构先验，都在试图解决「多 agent 自由对话/自由行动太不可控」的问题。社区正在从「让 agent 更能干」转向「让 agent 更可控」，这个方向跟你在 InternOS 里强调 Kernel 调度和确定性的思路完全一致。