Agent & LLM · 2026年5月30日
每日论文速递 · Agent & LLM
💡 一句话:用 JSON Patch 替代 agent 之间的自然语言对话——每个 agent 对共享结构化状态提交 patch,由确定性 kernel 做 schema 校验 + 写权限 + 事务提交,ALFWorld 上 84.6% 成功率,token 消耗只有 LangGraph 的 1/8。
I now have 7 excellent papers. Let me compile the final report. All papers are from May 2026, submitted within the last few days. Let me compile:
1. PatchBoard (2605.29313) - Schema-grounded state mutation for multi-agent collaboration — extremely relevant to InternOS
2. MACA (2605.25746) - Multi-agent coordination adaptation via structure-guided orchestration
3. LACUNA (2605.28617) - Safe agents as recursive program holes (type-safe agent architecture)
4. Ptah (2605.29861) - Multi-agent harness for deep research with Visual Working Memory
5. Compositional Incoherence (2605.30335) - Bounding incoherence in multi-component LLM agents
6. SpecBench (2605.30314) - Evaluating specification-level reasoning for SWE agents
7. DynaGraph (2605.29511) - Lightweight multi-model interaction via dynamic topological reconfiguration
📄 每日论文速递 · Agent & LLM
日期:2026-05-30
1. PatchBoard: Schema-Grounded State Mutation for Reliable and Auditable LLM Multi-Agent Collaboration
PatchBoard:基于 Schema 的状态变更机制,用于可靠可审计的 LLM 多智能体协作
🔗 https://arxiv.org/abs/2605.29313
📅 提交于 2026-05-28
💡 一句话:用 JSON Patch 替代 agent 之间的自然语言对话——每个 agent 对共享结构化状态提交 patch,由确定性 kernel 做 schema 校验 + 写权限 + 事务提交,ALFWorld 上 84.6% 成功率,token 消耗只有 LangGraph 的 1/8。
🎯 关联度:⭐⭐⭐⭐⭐ 这篇直接命中 InternOS 的核心设计问题。你在做的 Kernel 调度和状态管理,这篇论文的「Architect agent 构建 task-specific schema → deterministic kernel 做 mutation 校验」模式,跟你的 7-Kernel 架构思路高度一致。JSON Patch 做状态变更而不是自由对话,这个思路值得直接借鉴。
2. MACA: Multi-Agent Coordination Adaptation via Structure-Guided Orchestration
MACA:基于结构引导编排的多智能体协调自适应框架
🔗 https://arxiv.org/abs/2605.25746
📅 提交于 2026-05-25
💡 一句话:把多 agent 协调建模为 structure + orchestration 的联合后验推断——学一个 task/budget-conditioned 的结构先验(哪些 agent 参与、怎么连接),然后用 policy-based orchestration 做近似推断。比纯动态 agent 基线高 8.42%,token 少 43%。
🎯 关联度:⭐⭐⭐⭐⭐ 这篇论文精准描述了你在做的问题:结构稳定性 vs 动态适应性的两难。InternOS 的调度层如果要做跨 agent 编排,MACA 的「先验结构 + 后验编排」是一个比纯 ReAct 或纯 DAG 更成熟的框架。特别是 budget-conditioned 这点——你早晚要考虑 token 预算约束。
3. LACUNA: Safe Agents as Recursive Program Holes
LACUNA:将安全 Agent 建模为递归程序空洞
🔗 https://arxiv.org/abs/2605.28617
📅 提交于 2026-05-27
💡 一句话:提出 agent[T](task) 原语——LLM 填充的代码在执行前做类型检查,rejected action 不影响环境状态,编译错误驱动重试。ReAct loop、sub-agent、并行分解统一表达为普通控制流。Martin Odersky(Scala 之父)参与。
🎯 关联度:⭐⭐⭐⭐ 这篇的核心洞察是:让 model-written code 塑造 runtime,但通过类型系统约束安全边界。如果你后续考虑让 InternOS 的 agent 有更强的自定义行为能力(不只是调工具),LACUNA 的 typed-hole 模式是很优雅的安全方案。rejected = 回滚 + retry 的设计也很实用。
4. Locally Coherent, Globally Incoherent: Bounding Compositional Incoherence in Multi-Component LLM Agents
局部一致但全局矛盾:多组件 LLM Agent 的组合不一致性边界
🔗 https://arxiv.org/abs/2605.30335
📅 提交于 2026-05-28
💡 一句话:多组件 agent 系统里,每个组件单独看都 coherent,但组合起来可能违反概率公理。论文形式化了这个 failure mode,定义了 compositional residual ε,并给出了运行时可计算的检测 + 确定性修复方法。在 4-LLM panel 上,33-94% 的 clique 存在 ε > 0。
🎯 关联度:⭐⭐⭐⭐ 这是一个你设计多 agent 系统必须正视的理论问题。InternOS 如果有多个 Kernel 各自决策再组合结果,这篇论文说的「每个都对但合起来矛盾」是真实会发生的。ICML 2026 三个 workshop 都接了,说明社区认可度高。
5. SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents
SpecBench:评估软件工程 LLM Agent 的规格级推理能力
🔗 https://arxiv.org/abs/2605.30314
📅 提交于 2026-05-28
💡 一句话:SWE-Bench 只测「给定 spec 写代码」,SpecBench 测「spec 本身有没有问题」——从 Kubernetes、React、Rust、TVM、vLLM 的 RFC 流程中构建任务,让 agent 找出设计提案里的遗漏/歧义/矛盾。GPT-5.4 最好也只有 44.4%。
🎯 关联度:⭐⭐⭐⭐ 如果你在做 agent 辅助的软件开发流程(InternOS 本身也需要迭代设计),这篇指出了一个关键能力缺口:当前 agent 擅长按 spec 写代码,但不擅长审查 spec 本身。这对你评估 AI pair-programming 的实际价值有直接参考。
6. Ptah: Towards Verifiable Multimodal Deep Research — A Multi-Agent Harness for Interleaved Report Generation
Ptah:面向可验证的多模态深度研究——多智能体交织式报告生成框架
🔗 https://arxiv.org/abs/2605.29861
📅 提交于 2026-05-28
💡 一句话:多 agent 框架 Ptah 通过 planning → research → writing 三阶段生成多模态报告,核心设计是 Visual Working Memory(跨 agent 的图像状态管理)+ verifier agent 做全流程事实/引用/跨模态一致性检查。
🎯 关联度:⭐⭐⭐ 多 agent 的 lifecycle 编排(plan → collect → write → verify)和 InternOS 的任务分解思路同构。Visual Working Memory 的概念值得注意——如果 InternOS 处理的任务涉及多模态信息,这种跨 agent 的 memory 设计是可以借鉴的。
7. DynaGraph: Lightweight Multi-Model Interaction Framework via Dynamic Topological Reconfiguration
DynaGraph:基于动态拓扑重构的轻量级多模型交互框架
🔗 https://arxiv.org/abs/2605.29511
📅 提交于 2026-05-28
💡 一句话:在单卡 GPU 上用时分 PEFT adapter 复用同一个 base model 模拟多个「agent」,通过 Evaluator 实时监控执行置信度,触发两级自愈:Fine-grained Patching(局部数据补丁)和 Subgraph Reconstruction(严重逻辑断裂时重构子图)。8B 模型逼近 72B 效果。
🎯 关联度:⭐⭐⭐ 这篇解决的是资源约束下的多 agent 部署问题。如果 InternOS 要在有限算力下跑多 agent,adapter 复用 + 动态拓扑的思路比每个 agent 开一个独立 LLM 实例高效得多。自愈机制的两级设计也有参考价值。
本周趋势观察: 这周 agent 论文明显聚焦在结构化状态管理和组合可靠性——PatchBoard 的 JSON Patch、LACUNA 的 typed holes、MACA 的结构先验,都在试图解决「多 agent 自由对话/自由行动太不可控」的问题。社区正在从「让 agent 更能干」转向「让 agent 更可控」,这个方向跟你在 InternOS 里强调 Kernel 调度和确定性的思路完全一致。