A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月9日

每日论文速递 · Agent & LLM

💡 一句话:提出委派智能概念——主 agent 拆任务、分发给子 agent、子 agent 只返回摘要结果,节省主 agent 上下文窗口。通过 harness 引导生成高质量委派轨迹做 SFT,30B 模型在 BrowseComp 上打到 68.1 分。

I now have enough high-quality papers. Let me get the abstract for one more that's highly relevant to Anna's work — the MOSAIC paper is great, and let me also check the multi-agent orchestration paper with hierarchical memory.

Now I have all the data I need to compile the report. Let me assemble the final output.

📄 每日论文速递 · Agent & LLM

日期:2026-06-09


1. SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

(SearchSwarm:面向长周期深度研究的 Agent 委派智能)

💡 一句话:提出"委派智能"概念——主 agent 拆任务、分发给子 agent、子 agent 只返回摘要结果,节省主 agent 上下文窗口。通过 harness 引导生成高质量委派轨迹做 SFT,30B 模型在 BrowseComp 上打到 68.1 分。

🎯 关联:极高。InternOS 的核心就是跨角色的任务分解与委派。这篇论文把"什么时候该委派、委派什么、怎么整合返回结果"形式化了,直接可以参考它的 harness 设计思路来构建 InternOS 的调度 kernel。


2. Collaborative Human-Agent Protocol (CHAP)

(协作式人机协议 CHAP)

💡 一句话:填补了 MCP(工具访问)和 A2A(agent 互操作)之间的空白——定义了人和 agent 共同工作的协议层,包括 workspace、参与者、任务、产物和 append-only 审计日志,人的 override 变成带 diff + rationale + hash 的结构化事件。

🎯 关联:极高。CHAP 提出的 workspace + append-only evidence log + 可组合 profile 架构,跟 InternOS 的承诺跟踪机制高度对齐。特别是"人的审批变成不可否认的签名决定"这个设计,直接对标你在做的 human-in-the-loop 协调。


3. Anything2Skill: Compiling External Knowledge into Reusable Skills for Agents

(Anything2Skill:把外部知识编译成 Agent 的可复用技能)

💡 一句话:不再让 agent 每次都从 RAG 碎片里重新推理操作步骤,而是把异构知识(文档、日志、轨迹)预编译成结构化 skill contract(调用条件、禁忌、工作流步骤、约束),存进 SkillBank 做版本管理和生命周期追踪。RAG + SkillBank 组合在 CLI 任务上成功率 94-98%。

🎯 关联:。这就是 agent memory 的一种高级形态——procedural memory。InternOS 如果要让 agent 积累组织经验而不是每次从零开始,这个 SkillBank 的 taxonomy-aware compilation + lifecycle tracking 设计值得直接借鉴。


4. Capability-Aligned Hierarchical Learning for Tool-Augmented LLMs (CAHL)

(能力对齐的分层学习:面向工具增强的 LLM)

💡 一句话:指出现有"规划层+执行层"两层 agent 架构的核心问题——上下层分别训练导致 planner-executor misalignment。用 RLVR 联合优化两层策略,在 API-Bank 和 BFCL 上证明对齐后效果显著提升。

🎯 关联:。InternOS 的 7 Kernel 架构本质上也有"调度"和"执行"的分工。这篇论文揭示的 misalignment 问题是你设计多 kernel 协作时要提前考虑的:kernel 之间的接口约定如果不够严格,就会出现类似的 planner-executor 脱节。


5. REFLECT: Intervention-Supported Error Attribution for Silent Failures in LLM Agent Traces

(REFLECT:通过干预回放定位 Agent 静默失败的根因)

💡 一句话:Agent 执行完一长串 trace 后失败了,但不知道哪步出了问题(静默失败)。REFLECT 的做法是:先诊断可疑步骤,然后用 controlled replay + patch 验证,用"结果是否翻转"作为对比证据来锁定真正的错误步。

🎯 关联:。Agent 平台必须解决的可观测性问题。InternOS 里如果一个跨 kernel 的任务失败了,你需要类似 REFLECT 的机制来做 trace-level 的归因,而不是让用户自己去翻日志。


6. HarnessFix: From Failed Trajectories to Reliable LLM Agents

(HarnessFix:从失败轨迹到可靠的 LLM Agent——诊断与修复 Harness 缺陷)

💡 一句话:Agent 不行往往不是模型的问题,而是 harness(执行环境、工具接口、生命周期编排、验证层)的问题。提出 HTIR 中间表示来标准化执行轨迹,把失败归因到具体的 harness 层,然后自动生成和验证修复补丁。SWE-Bench 上提升 15-50%。

🎯 关联:。这篇论文把 agent 的"基础设施层"问题系统化了——执行环境、工具接口、生命周期编排、可观测性、验证、治理,正好是你做 Agent 平台时需要考虑的分层。ETCLOVG layers 的分类法可以直接拿来用。


7. MAAD: Bridging Requirements and Architecture via Multi-Agent Orchestration

(MAAD:通过多 Agent 编排桥接需求与架构设计)

💡 一句话:4 个专业化 agent(分析师、建模师、设计师、评估师)协作完成软件架构设计,用 RAG 注入架构标准和模式,用分层 memory 捕获设计历史做迭代精化。比 MetaGPT 生成的架构更完整、更模块化、更可追溯。

🎯 关联:中高。多 agent 协作做软件工程任务的实战案例。它的 hierarchical memory(设计历史迭代精化)和 Evaluator agent(自动生成质量评估报告)的设计,对 InternOS 的任务协调和质量保障有参考价值。


小结:今天的论文有个明显趋势——agent 的基础设施层正在被系统化。从协议(CHAP)、到编排(MAAD/SearchSwarm)、到 memory(Anything2Skill)、到可观测性和故障归因(REFLECT/HarnessFix),社区已经从"让 agent 能跑"走向"让 agent 可靠地跑"。这跟你在 InternOS 里要解决的问题高度重合。特别推荐今天重点看 CHAP 和 SearchSwarm。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-09 09:04:24
源文件
2026-06-09_09-04-24.md
链接数
7