Agent & LLM · 2026年6月8日

每日论文速递 · Agent & LLM

💡 一句话：百度团队搞了个多 Agent 框架做深度研究，核心是把 Agent Core（规划调度）和 Tool Ecosystem（检索执行）解耦，加了 graph-based 动态规划 + 递归两层执行 + rubric-based 自适应停止机制，在 DeepResearch Bench 上 SOTA。

2026-06-08 09:07:107 篇论文条目

arXiv:2606.07299 arXiv:2606.07412 arXiv:2606.04056 arXiv:2606.01416 arXiv:2606.03841 arXiv:2606.07392 arXiv:2606.07316

I now have enough high-quality papers. Let me compile the report with the 7 most relevant papers I've found.

📄 每日论文速递 · Agent & LLM

日期：2026-06-08

1. DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning

（DuMate-深度研究：可审计的多智能体递归搜索与评分标准驱动推理系统）

🔗 https://arxiv.org/abs/2606.07299

🎯 关联：极高。Agent Core 和 Tool Ecosystem 的解耦设计、graph-based 规划重规划、inner agent 嵌套执行——这些跟 InternOS 的任务编排和 Kernel 分层设计直接对标。值得细看它的 traceability 实现。

2. Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

（苏格拉底式 SWE：通过执行轨迹衍生技能的自进化编码 Agent）

🔗 https://arxiv.org/abs/2606.07412

💡 一句话：让 SWE Agent 从自己的历史解题 trace 中蒸馏出"技能"（失败模式和修复模式），然后用这些技能引导生成新的训练任务，形成闭环自进化。SWE-bench Verified 达到 50.4%。

🎯 关联：高。trace → skill → 任务生成的闭环思路，跟 InternOS 中 Agent 如何从历史执行中学习积累经验的设计方向一致。技能库的结构化表示值得参考。

3. Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents

（Token 预算：63 个 LLM-Agent 预算超支事故的实证目录）

🔗 https://arxiv.org/abs/2606.04056

💡 一句话：从 21 个编排框架中收集了 63 个真实生产环境的 token 预算超支事故，归为 8 类失败模式，并用 Rust 的 affine type 系统做了一个"编译期就防 double-spend"的 token 预算 crate。

🎯 关联：极高。这就是 Agent 平台在生产环境里的真实痛点——retry 循环烧钱、delegation fanout race。那个 8 类失败分类法对你设计 InternOS 的资源控制 Kernel 直接有用。

4. Self-Healing Agentic Orchestrators for Reliable Tool-Augmented LLM Systems

（可靠工具增强 LLM 系统的自愈 Agent 编排器）

🔗 https://arxiv.org/abs/2606.01416

💡 一句话：把 Agent 编排层的可靠性当作有界运行时控制问题来解——故障信号 → 故障分类 → 定向恢复（有预算约束）→ 恢复验证 → 可观测性 trace。在 100 任务故障注入 benchmark 上达到 98.8% 成功率。

🎯 关联：极高。这个"self-healing orchestrator"的思路跟 InternOS 的 Kernel 层异常恢复设计完全重叠。它的 failure taxonomy、bounded recovery、verifier-guided 机制都是可以直接借鉴的工程模式。

5. EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

（EvoDS：具备技能学习和上下文管理的自进化自主数据科学 Agent）

🔗 https://arxiv.org/abs/2606.03841

💡 一句话：用 agentic RL 让 Agent 自动学会新技能（合成→验证→复用）+ 把长上下文管理当控制问题学（不是被动截断而是主动压缩），KDD 2026 accepted，比 baseline 高 28.9%。

🎯 关联：高。两个核心贡献——Autonomous Skill Acquisition 和 Adaptive Context Compression——都是 Agent 平台需要解的问题。特别是把 context management 当 learned control problem 而不是 heuristic truncation，这个视角值得你在 InternOS memory 层设计时参考。

6. Online Pandora's Box for Contextual LLM Cascading

（上下文 LLM 级联的在线潘多拉盒子模型）

🔗 https://arxiv.org/abs/2606.07392

💡 一句话：把"该调哪个 LLM API、调几次、何时停"建模为 online contextual Pandora's Box 问题，用 Weitzman reservation index + UCB 做 regret-optimal 的查询策略，证明了 O(√T) 后悔上界。

🎯 关联：中高。如果 InternOS 未来要做多模型 cascading 或者 routing（小模型先试、大模型兜底），这个理论框架给出了最优调度的基本原则。比 ad-hoc 的 fallback 逻辑要严谨得多。

7. Hierarchical Certified Semantic Commitment for Byzantine-Resilient LLM-Agent Collaboration

（面向拜占庭容错 LLM-Agent 协作的分层认证语义承诺协议）

🔗 https://arxiv.org/abs/2606.07316

💡 一句话：多 Agent 协作中，不同 Agent 输出的是自然语言（不是确定性字节），传统 BFT 的"字节一致"检查不适用。这篇提出了 H-CSC 协议，在 embedding 空间做语义层面的 finality 判断——commit / verdict_commit / abort 三种结果。

🎯 关联：中高。如果 InternOS 的多 Agent 协作需要对"Agent 承诺的结果是否一致"做判断（比如多个 Agent 投票决策），语义 commitment 协议是比简单 majority vote 更严肃的方案。对承诺跟踪机制有启发。

今天总结：本周出了一波很硬的 Agent 系统工程论文。跟你最相关的是 #3（token 预算失败目录）和 #4（self-healing orchestrator）——前者是真实事故数据，后者是恢复架构模式，都是做 Agent 平台绕不开的生产问题。#1 的解耦架构也值得对照看。