Agent & LLM · 2026年5月31日
每日论文速递 · Agent & LLM
💡 一句话:提出一个编程模型,让 LLM Agent 生成的代码在执行前必须通过类型检查,把 ReAct 循环、子 Agent、并行分解等都统一成普通控制流,拒绝的 action 不会留下脏状态。来自 Martin Odersky (Scala 之父) 的组。
I now have enough high-quality papers. I have 7 highly relevant papers from the last few days (all submitted May 26-29, 2026). Let me compile the report.
📄 每日论文速递 · Agent & LLM
日期:2026-05-31
1. LACUNA: Safe Agents as Recursive Program Holes
(LACUNA:将安全 Agent 建模为递归程序空洞)
🔗 https://arxiv.org/abs/2605.28617
💡 一句话:提出一个编程模型,让 LLM Agent 生成的代码在执行前必须通过类型检查,把 ReAct 循环、子 Agent、并行分解等都统一成普通控制流,拒绝的 action 不会留下脏状态。来自 Martin Odersky (Scala 之父) 的组。
🎯 关联:极高。这直接对应 InternOS 里 Agent 安全执行的问题——怎么让 Agent 写的代码不搞坏系统。typed hole 的思路可以直接映射到你的 kernel 里做 action validation。
2. Locally Coherent, Globally Incoherent: Bounding Compositional Incoherence in Multi-Component LLM Agents
(局部一致,全局矛盾:量化多组件 LLM Agent 的组合不一致性)
🔗 https://arxiv.org/abs/2605.30335
💡 一句话:形式化了一个关键问题——多个 LLM Agent 组件各自合理但组合起来违反概率一致性。提出了可在运行时计算的 compositional residual 指标,以及确定性修复方法。ICML 2026 Workshop。
🎯 关联:高。多 Agent 协调时"每个 Agent 自己没问题但系统级别出bug"这个现象你肯定遇到过。这篇给了数学框架来检测和修复,对 InternOS 的跨 Agent 协调设计有参考价值。
3. Ptah: Towards Verifiable Multimodal Deep Research — A Multi-Agent Harness for Interleaved Report Generation
(Ptah:面向可验证的多模态深度研究——多 Agent 编排框架)
🔗 https://arxiv.org/abs/2605.29861
💡 一句话:一个完整的多 Agent 编排系统,通过 planning → research → writing 三阶段生命周期管理,用 Visual Working Memory 维护跨阶段状态,verifier agent 做质量门控。
🎯 关联:高。三阶段生命周期 + verifier 作为 acceptance function 的设计模式,跟你在 InternOS 里做任务调度和质量把关的架构思路非常接近。Visual Working Memory 的概念也可以泛化到你的 memory kernel。
4. SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents
(SpecBench:评估软件工程 LLM Agent 的需求规格推理能力)
🔗 https://arxiv.org/abs/2605.30314
💡 一句话:SWE-Bench 只测"给了完整 spec 能不能写代码",这篇测的是 Agent 能不能从不完整的设计提案中发现遗漏、歧义和不一致。用 Kubernetes/React/Rust/vLLM 等项目的 RFC 流程做 benchmark,最好的 Agent (GPT-5.4) 准确率才 44.4%。
🎯 关联:高。如果你在做 AI Agent 平台,这个 benchmark 直接量化了一个核心能力缺口——Agent 不是只能写代码,还得能审 spec。这对你理解 Agent 能力边界很有用。
5. RAMP: Runtime Assessing of Agentic Models in Production Systems
(RAMP:生产系统中 Agent 模型的运行时评估框架)
🔗 https://arxiv.org/abs/2605.27492
💡 一句话:静态 benchmark 根本测不出 Agent 在真实生产环境里的表现。这篇用编译器构建任务做了 15 个模型的 runtime 评估,发现任务完成率从第一阶段 100% 暴跌到最后阶段 20%,没有一个模型跑完全流程。计算成本差异达 1000 倍。
🎯 关联:高。这篇直接打脸"benchmark 说行就行"的幻觉。你在设计 Agent 平台时,必须考虑 long-horizon workflow 下的能力退化和故障传播,这篇给了量化证据。
6. Do Agents Think Deeper? A Mechanistic Investigation of Layer-Wise Dynamics in Sequential Planning
(Agent 会更深入地思考吗?序列规划中的逐层动态机制研究)
🔗 https://arxiv.org/abs/2605.27935
💡 一句话:从 mechanistic interpretability 角度研究 LLM 做 Agent 规划时的内部计算——随着 trajectory 展开,模型会动态征用更深的层,并且从"稳定特征积累"转向"反复校准修正"。不同模型家族(Qwen/Minimax/GLM)的深度分配策略差异很大。
🎯 关联:中高。偏理论但有实际意义:选择哪个模型做 Agent backbone 时,不同模型的 agentic reasoning 内部机制不同,这影响你的模型选型和 prompt 策略。
7. FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agents
(FinHarness:金融 LLM Agent 的全生命周期内联安全框架)
🔗 https://arxiv.org/abs/2605.27333
💡 一句话:三层安全框架——Query Monitor 检测意图漂移、Tool Monitor 逐步评估工具调用、Cascade 模块自适应路由到轻量/重量级 judge。风险信号回注给 Agent 让它自己决定拒绝还是重新规划。ASR 从 38.3% 降到 15.0%,高级 judge 调用减少 4.7 倍。
🎯 关联:中高。虽然是金融领域的,但"内联安全 harness"的架构模式——在 Agent 执行链路里插入轻量级检查点、风险信号回注、自适应升级——是通用的。对 InternOS 做 Agent 安全管控有直接参考价值。
本周观察:这周 Agent 安全/可靠性方向的论文爆发式增多,LACUNA(类型安全)、HARP(harm 传播)、FinHarness(运行时安全)、RAMP(生产评估)形成一个完整的"Agent 可靠性"研究图景。说明学界已经过了"Agent 能不能 work"的阶段,进入"怎么让 Agent 不出事"的阶段。这对你做平台设计是个重要信号——安全和可靠性不是附加功能,是架构级需求。