Agent & LLM · 2026年5月31日

每日论文速递 · Agent & LLM

💡 一句话：提出一个编程模型，让 LLM Agent 生成的代码在执行前必须通过类型检查，把 ReAct 循环、子 Agent、并行分解等都统一成普通控制流，拒绝的 action 不会留下脏状态。来自 Martin Odersky (Scala 之父) 的组。

2026-05-31 09:04:317 篇论文条目

arXiv:2605.28617 arXiv:2605.30335 arXiv:2605.29861 arXiv:2605.30314 arXiv:2605.27492 arXiv:2605.27935 arXiv:2605.27333

I now have enough high-quality papers. I have 7 highly relevant papers from the last few days (all submitted May 26-29, 2026). Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期：2026-05-31

1. LACUNA: Safe Agents as Recursive Program Holes

（LACUNA：将安全 Agent 建模为递归程序空洞）

🔗 https://arxiv.org/abs/2605.28617

🎯 关联：极高。这直接对应 InternOS 里 Agent 安全执行的问题——怎么让 Agent 写的代码不搞坏系统。typed hole 的思路可以直接映射到你的 kernel 里做 action validation。

2. Locally Coherent, Globally Incoherent: Bounding Compositional Incoherence in Multi-Component LLM Agents

（局部一致，全局矛盾：量化多组件 LLM Agent 的组合不一致性）

🔗 https://arxiv.org/abs/2605.30335

💡 一句话：形式化了一个关键问题——多个 LLM Agent 组件各自合理但组合起来违反概率一致性。提出了可在运行时计算的 compositional residual 指标，以及确定性修复方法。ICML 2026 Workshop。

🎯 关联：高。多 Agent 协调时"每个 Agent 自己没问题但系统级别出bug"这个现象你肯定遇到过。这篇给了数学框架来检测和修复，对 InternOS 的跨 Agent 协调设计有参考价值。

3. Ptah: Towards Verifiable Multimodal Deep Research — A Multi-Agent Harness for Interleaved Report Generation

（Ptah：面向可验证的多模态深度研究——多 Agent 编排框架）

🔗 https://arxiv.org/abs/2605.29861

💡 一句话：一个完整的多 Agent 编排系统，通过 planning → research → writing 三阶段生命周期管理，用 Visual Working Memory 维护跨阶段状态，verifier agent 做质量门控。

🎯 关联：高。三阶段生命周期 + verifier 作为 acceptance function 的设计模式，跟你在 InternOS 里做任务调度和质量把关的架构思路非常接近。Visual Working Memory 的概念也可以泛化到你的 memory kernel。

4. SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents

（SpecBench：评估软件工程 LLM Agent 的需求规格推理能力）

🔗 https://arxiv.org/abs/2605.30314

💡 一句话：SWE-Bench 只测"给了完整 spec 能不能写代码"，这篇测的是 Agent 能不能从不完整的设计提案中发现遗漏、歧义和不一致。用 Kubernetes/React/Rust/vLLM 等项目的 RFC 流程做 benchmark，最好的 Agent (GPT-5.4) 准确率才 44.4%。

🎯 关联：高。如果你在做 AI Agent 平台，这个 benchmark 直接量化了一个核心能力缺口——Agent 不是只能写代码，还得能审 spec。这对你理解 Agent 能力边界很有用。

5. RAMP: Runtime Assessing of Agentic Models in Production Systems

（RAMP：生产系统中 Agent 模型的运行时评估框架）

🔗 https://arxiv.org/abs/2605.27492

💡 一句话：静态 benchmark 根本测不出 Agent 在真实生产环境里的表现。这篇用编译器构建任务做了 15 个模型的 runtime 评估，发现任务完成率从第一阶段 100% 暴跌到最后阶段 20%，没有一个模型跑完全流程。计算成本差异达 1000 倍。

🎯 关联：高。这篇直接打脸"benchmark 说行就行"的幻觉。你在设计 Agent 平台时，必须考虑 long-horizon workflow 下的能力退化和故障传播，这篇给了量化证据。

6. Do Agents Think Deeper? A Mechanistic Investigation of Layer-Wise Dynamics in Sequential Planning

（Agent 会更深入地思考吗？序列规划中的逐层动态机制研究）

🔗 https://arxiv.org/abs/2605.27935

💡 一句话：从 mechanistic interpretability 角度研究 LLM 做 Agent 规划时的内部计算——随着 trajectory 展开，模型会动态征用更深的层，并且从"稳定特征积累"转向"反复校准修正"。不同模型家族（Qwen/Minimax/GLM）的深度分配策略差异很大。

🎯 关联：中高。偏理论但有实际意义：选择哪个模型做 Agent backbone 时，不同模型的 agentic reasoning 内部机制不同，这影响你的模型选型和 prompt 策略。

7. FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agents

（FinHarness：金融 LLM Agent 的全生命周期内联安全框架）

🔗 https://arxiv.org/abs/2605.27333

💡 一句话：三层安全框架——Query Monitor 检测意图漂移、Tool Monitor 逐步评估工具调用、Cascade 模块自适应路由到轻量/重量级 judge。风险信号回注给 Agent 让它自己决定拒绝还是重新规划。ASR 从 38.3% 降到 15.0%，高级 judge 调用减少 4.7 倍。

🎯 关联：中高。虽然是金融领域的，但"内联安全 harness"的架构模式——在 Agent 执行链路里插入轻量级检查点、风险信号回注、自适应升级——是通用的。对 InternOS 做 Agent 安全管控有直接参考价值。

本周观察：这周 Agent 安全/可靠性方向的论文爆发式增多，LACUNA（类型安全）、HARP（harm 传播）、FinHarness（运行时安全）、RAMP（生产评估）形成一个完整的"Agent 可靠性"研究图景。说明学界已经过了"Agent 能不能 work"的阶段，进入"怎么让 Agent 不出事"的阶段。这对你做平台设计是个重要信号——安全和可靠性不是附加功能，是架构级需求。