Agent & LLM · 2026年6月9日

每日论文速递 · Agent & LLM

💡 一句话：提出委派智能概念——主 agent 拆任务、分发给子 agent、子 agent 只返回摘要结果，节省主 agent 上下文窗口。通过 harness 引导生成高质量委派轨迹做 SFT，30B 模型在 BrowseComp 上打到 68.1 分。

2026-06-09 09:04:247 篇论文条目

arXiv:2606.09730 arXiv:2606.09751 arXiv:2606.09316 arXiv:2606.09371 arXiv:2606.09071 arXiv:2606.06324 arXiv:2606.01385

I now have enough high-quality papers. Let me get the abstract for one more that's highly relevant to Anna's work — the MOSAIC paper is great, and let me also check the multi-agent orchestration paper with hierarchical memory.

Now I have all the data I need to compile the report. Let me assemble the final output.

📄 每日论文速递 · Agent & LLM

日期：2026-06-09

1. SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

（SearchSwarm：面向长周期深度研究的 Agent 委派智能）

🔗 https://arxiv.org/abs/2606.09730

💡 一句话：提出"委派智能"概念——主 agent 拆任务、分发给子 agent、子 agent 只返回摘要结果，节省主 agent 上下文窗口。通过 harness 引导生成高质量委派轨迹做 SFT，30B 模型在 BrowseComp 上打到 68.1 分。

🎯 关联：极高。InternOS 的核心就是跨角色的任务分解与委派。这篇论文把"什么时候该委派、委派什么、怎么整合返回结果"形式化了，直接可以参考它的 harness 设计思路来构建 InternOS 的调度 kernel。

2. Collaborative Human-Agent Protocol (CHAP)

（协作式人机协议 CHAP）

🔗 https://arxiv.org/abs/2606.09751

💡 一句话：填补了 MCP（工具访问）和 A2A（agent 互操作）之间的空白——定义了人和 agent 共同工作的协议层，包括 workspace、参与者、任务、产物和 append-only 审计日志，人的 override 变成带 diff + rationale + hash 的结构化事件。

🎯 关联：极高。CHAP 提出的 workspace + append-only evidence log + 可组合 profile 架构，跟 InternOS 的承诺跟踪机制高度对齐。特别是"人的审批变成不可否认的签名决定"这个设计，直接对标你在做的 human-in-the-loop 协调。

3. Anything2Skill: Compiling External Knowledge into Reusable Skills for Agents

（Anything2Skill：把外部知识编译成 Agent 的可复用技能）

🔗 https://arxiv.org/abs/2606.09316

💡 一句话：不再让 agent 每次都从 RAG 碎片里重新推理操作步骤，而是把异构知识（文档、日志、轨迹）预编译成结构化 skill contract（调用条件、禁忌、工作流步骤、约束），存进 SkillBank 做版本管理和生命周期追踪。RAG + SkillBank 组合在 CLI 任务上成功率 94-98%。

🎯 关联：高。这就是 agent memory 的一种高级形态——procedural memory。InternOS 如果要让 agent 积累组织经验而不是每次从零开始，这个 SkillBank 的 taxonomy-aware compilation + lifecycle tracking 设计值得直接借鉴。

4. Capability-Aligned Hierarchical Learning for Tool-Augmented LLMs (CAHL)

（能力对齐的分层学习：面向工具增强的 LLM）

🔗 https://arxiv.org/abs/2606.09371

💡 一句话：指出现有"规划层+执行层"两层 agent 架构的核心问题——上下层分别训练导致 planner-executor misalignment。用 RLVR 联合优化两层策略，在 API-Bank 和 BFCL 上证明对齐后效果显著提升。

🎯 关联：高。InternOS 的 7 Kernel 架构本质上也有"调度"和"执行"的分工。这篇论文揭示的 misalignment 问题是你设计多 kernel 协作时要提前考虑的：kernel 之间的接口约定如果不够严格，就会出现类似的 planner-executor 脱节。

5. REFLECT: Intervention-Supported Error Attribution for Silent Failures in LLM Agent Traces

（REFLECT：通过干预回放定位 Agent 静默失败的根因）

🔗 https://arxiv.org/abs/2606.09071

💡 一句话：Agent 执行完一长串 trace 后失败了，但不知道哪步出了问题（静默失败）。REFLECT 的做法是：先诊断可疑步骤，然后用 controlled replay + patch 验证，用"结果是否翻转"作为对比证据来锁定真正的错误步。

🎯 关联：高。Agent 平台必须解决的可观测性问题。InternOS 里如果一个跨 kernel 的任务失败了，你需要类似 REFLECT 的机制来做 trace-level 的归因，而不是让用户自己去翻日志。

6. HarnessFix: From Failed Trajectories to Reliable LLM Agents

（HarnessFix：从失败轨迹到可靠的 LLM Agent——诊断与修复 Harness 缺陷）

🔗 https://arxiv.org/abs/2606.06324

💡 一句话：Agent 不行往往不是模型的问题，而是 harness（执行环境、工具接口、生命周期编排、验证层）的问题。提出 HTIR 中间表示来标准化执行轨迹，把失败归因到具体的 harness 层，然后自动生成和验证修复补丁。SWE-Bench 上提升 15-50%。

🎯 关联：高。这篇论文把 agent 的"基础设施层"问题系统化了——执行环境、工具接口、生命周期编排、可观测性、验证、治理，正好是你做 Agent 平台时需要考虑的分层。ETCLOVG layers 的分类法可以直接拿来用。

7. MAAD: Bridging Requirements and Architecture via Multi-Agent Orchestration

（MAAD：通过多 Agent 编排桥接需求与架构设计）

🔗 https://arxiv.org/abs/2606.01385

💡 一句话：4 个专业化 agent（分析师、建模师、设计师、评估师）协作完成软件架构设计，用 RAG 注入架构标准和模式，用分层 memory 捕获设计历史做迭代精化。比 MetaGPT 生成的架构更完整、更模块化、更可追溯。

🎯 关联：中高。多 agent 协作做软件工程任务的实战案例。它的 hierarchical memory（设计历史迭代精化）和 Evaluator agent（自动生成质量评估报告）的设计，对 InternOS 的任务协调和质量保障有参考价值。

小结：今天的论文有个明显趋势——agent 的基础设施层正在被系统化。从协议（CHAP）、到编排（MAAD/SearchSwarm）、到 memory（Anything2Skill）、到可观测性和故障归因（REFLECT/HarnessFix），社区已经从"让 agent 能跑"走向"让 agent 可靠地跑"。这跟你在 InternOS 里要解决的问题高度重合。特别推荐今天重点看 CHAP 和 SearchSwarm。