A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月8日

每日论文速递 · Agent & LLM

💡 一句话:百度团队搞了个多 Agent 框架做深度研究,核心是把 Agent Core(规划调度)和 Tool Ecosystem(检索执行)解耦,加了 graph-based 动态规划 + 递归两层执行 + rubric-based 自适应停止机制,在 DeepResearch Bench 上 SOTA。

I now have enough high-quality papers. Let me compile the report with the 7 most relevant papers I've found.

📄 每日论文速递 · Agent & LLM

日期:2026-06-08


1. DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning

(DuMate-深度研究:可审计的多智能体递归搜索与评分标准驱动推理系统)

💡 一句话:百度团队搞了个多 Agent 框架做深度研究,核心是把 Agent Core(规划调度)和 Tool Ecosystem(检索执行)解耦,加了 graph-based 动态规划 + 递归两层执行 + rubric-based 自适应停止机制,在 DeepResearch Bench 上 SOTA。

🎯 关联:极高。Agent Core 和 Tool Ecosystem 的解耦设计、graph-based 规划重规划、inner agent 嵌套执行——这些跟 InternOS 的任务编排和 Kernel 分层设计直接对标。值得细看它的 traceability 实现。


2. Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

(苏格拉底式 SWE:通过执行轨迹衍生技能的自进化编码 Agent)

💡 一句话:让 SWE Agent 从自己的历史解题 trace 中蒸馏出"技能"(失败模式和修复模式),然后用这些技能引导生成新的训练任务,形成闭环自进化。SWE-bench Verified 达到 50.4%。

🎯 关联:。trace → skill → 任务生成的闭环思路,跟 InternOS 中 Agent 如何从历史执行中学习积累经验的设计方向一致。技能库的结构化表示值得参考。


3. Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents

(Token 预算:63 个 LLM-Agent 预算超支事故的实证目录)

💡 一句话:从 21 个编排框架中收集了 63 个真实生产环境的 token 预算超支事故,归为 8 类失败模式,并用 Rust 的 affine type 系统做了一个"编译期就防 double-spend"的 token 预算 crate。

🎯 关联:极高。这就是 Agent 平台在生产环境里的真实痛点——retry 循环烧钱、delegation fanout race。那个 8 类失败分类法对你设计 InternOS 的资源控制 Kernel 直接有用。


4. Self-Healing Agentic Orchestrators for Reliable Tool-Augmented LLM Systems

(可靠工具增强 LLM 系统的自愈 Agent 编排器)

💡 一句话:把 Agent 编排层的可靠性当作有界运行时控制问题来解——故障信号 → 故障分类 → 定向恢复(有预算约束)→ 恢复验证 → 可观测性 trace。在 100 任务故障注入 benchmark 上达到 98.8% 成功率。

🎯 关联:极高。这个"self-healing orchestrator"的思路跟 InternOS 的 Kernel 层异常恢复设计完全重叠。它的 failure taxonomy、bounded recovery、verifier-guided 机制都是可以直接借鉴的工程模式。


5. EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

(EvoDS:具备技能学习和上下文管理的自进化自主数据科学 Agent)

💡 一句话:用 agentic RL 让 Agent 自动学会新技能(合成→验证→复用)+ 把长上下文管理当控制问题学(不是被动截断而是主动压缩),KDD 2026 accepted,比 baseline 高 28.9%。

🎯 关联:。两个核心贡献——Autonomous Skill Acquisition 和 Adaptive Context Compression——都是 Agent 平台需要解的问题。特别是把 context management 当 learned control problem 而不是 heuristic truncation,这个视角值得你在 InternOS memory 层设计时参考。


6. Online Pandora's Box for Contextual LLM Cascading

(上下文 LLM 级联的在线潘多拉盒子模型)

💡 一句话:把"该调哪个 LLM API、调几次、何时停"建模为 online contextual Pandora's Box 问题,用 Weitzman reservation index + UCB 做 regret-optimal 的查询策略,证明了 O(√T) 后悔上界。

🎯 关联:中高。如果 InternOS 未来要做多模型 cascading 或者 routing(小模型先试、大模型兜底),这个理论框架给出了最优调度的基本原则。比 ad-hoc 的 fallback 逻辑要严谨得多。


7. Hierarchical Certified Semantic Commitment for Byzantine-Resilient LLM-Agent Collaboration

(面向拜占庭容错 LLM-Agent 协作的分层认证语义承诺协议)

💡 一句话:多 Agent 协作中,不同 Agent 输出的是自然语言(不是确定性字节),传统 BFT 的"字节一致"检查不适用。这篇提出了 H-CSC 协议,在 embedding 空间做语义层面的 finality 判断——commit / verdict_commit / abort 三种结果。

🎯 关联:中高。如果 InternOS 的多 Agent 协作需要对"Agent 承诺的结果是否一致"做判断(比如多个 Agent 投票决策),语义 commitment 协议是比简单 majority vote 更严肃的方案。对承诺跟踪机制有启发。


今天总结:本周出了一波很硬的 Agent 系统工程论文。跟你最相关的是 #3(token 预算失败目录)和 #4(self-healing orchestrator)——前者是真实事故数据,后者是恢复架构模式,都是做 Agent 平台绕不开的生产问题。#1 的解耦架构也值得对照看。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-08 09:07:10
源文件
2026-06-08_09-07-10.md
链接数
7