Agent & LLM · 2026年5月26日

每日论文速递 · Agent & LLM

💡 一句话：提出 Agent 系统的瓶颈不在模型本身，而在模型外面的harness——memory、context 构造、skill routing、编排循环、验证治理这一整套执行层。构建了 CheetahClaws 参考实现，跟 Claude Code 和 OpenClaw 做了对比。

2026-05-26 09:04:357 篇论文条目

arXiv:2605.26112 arXiv:2605.25746 arXiv:2605.26081 arXiv:2605.25338 arXiv:2605.24812 arXiv:2605.21240 arXiv:2605.24426

I now have enough material for a solid selection. I have 7 highly relevant papers all from the last few days (May 20-26, 2026). Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期：2026-05-26

1. From Model Scaling to System Scaling: Scaling the Harness in Agentic AI

从模型扩展到系统扩展：Agentic AI 中的 Harness 扩展

🔗 https://arxiv.org/abs/2605.26112

💡 一句话：提出 Agent 系统的瓶颈不在模型本身，而在模型外面的"harness"——memory、context 构造、skill routing、编排循环、验证治理这一整套执行层。构建了 CheetahClaws 参考实现，跟 Claude Code 和 OpenClaw 做了对比。

🎯 关联：极高。这篇论文的核心论点——把 Agent Harness（编排层、memory 基底、上下文治理）当作一等公民来设计——跟 InternOS 的 7 Kernel 架构思路高度同构。他提出的 context governance、trustworthy memory、dynamic skill routing 三大瓶颈，几乎就是你在做的 MemoryKernel / ContextKernel / SchedulerKernel 要解决的问题。值得细读。

2. MACA: Multi-Agent Coordination Adaptation via Structure-Guided Orchestration

MACA：基于结构引导编排的多智能体协调适应框架

🔗 https://arxiv.org/abs/2605.25746

💡 一句话：用概率视角重新定义多 Agent 协调——把它建模为"结构 + 编排"的联合后验推断，学一个 task/budget-conditioned 的结构先验来引导策略编排。比纯 adaptive 方法平均高 8.42%，省 43% token。

🎯 关联：高。InternOS 里多 Kernel 之间的协调调度本质上也是结构（谁参与）+ 编排（怎么流转）的联合优化。MACA 的"结构先验"概念可以类比为你给不同任务类型预设的 Kernel 调度模板。

3. VeriTrace: Evolving Mental Models for Deep Research Agents

VeriTrace：深度研究 Agent 的可进化心智模型

🔗 https://arxiv.org/abs/2605.26081

💡 一句话：给 Deep Research Agent 设计了三个显式反馈环（解释更新、偏差反馈、schema 修订），用认知图谱框架让 Agent 的中间表示在任务过程中持续自我校正，而不是全靠模型隐式推理。在 DRB 上提升 4.22pp。

🎯 关联：高。这个"三个反馈环"的设计跟 InternOS 里承诺跟踪机制的思路相通——不是一次性规划，而是在执行过程中不断对齐预期和现实。schema revision 也跟你之前讨论的"任务结构动态演化"相关。

4. CausalFlow: Causal Attribution and Counterfactual Repair for LLM Agent Failures

CausalFlow：LLM Agent 失败的因果归因与反事实修复

🔗 https://arxiv.org/abs/2605.25338

💡 一句话：把 Agent 执行失败的 trace 建模为因果链，通过逐步反事实干预计算"因果责任分数"，精确定位失败步骤，生成最小修复补丁。既能运行时修复，也能生成训练数据。

🎯 关联：高。做 Agent 平台就绕不开"失败了怎么办"。CausalFlow 的方法比简单重试高级得多——它能告诉你是哪一步出了问题、最小改什么能修好。这对 InternOS 未来的 Agent 可靠性层（verification/governance）是直接可借鉴的思路。

5. CoRe-Code: Collaborative Reinforcement Learning for Code Generation

CoRe-Code：协作强化学习代码生成

🔗 https://arxiv.org/abs/2605.24812

💡 一句话：用 Planner-Coder 两个角色专精的 Agent 做代码生成，再用 GRPO 做协作感知的 RL 训练来增强角色分工和对齐。在多个 benchmark 上超过现有 RL 和多 Agent 方法，且能泛化到 Retrieval/Debugging Agent。

🎯 关联：中高。多 Agent 代码生成的范式验证——Planner + Coder 的角色分工加上 RL 协调训练。如果 InternOS 未来要接入代码生成任务，这个架构模式值得参考。

6. APEX: Autonomous Policy Exploration for Self-Evolving LLM Agents

APEX：自主策略探索的自进化 LLM Agent

🔗 https://arxiv.org/abs/2605.21240

💡 一句话：解决自进化 Agent 的"探索坍缩"问题——随着记忆积累，Agent 会越来越倾向已知套路。APEX 用 DAG 结构的 strategy map 做显式策略空间管理，平衡探索和利用。

🎯 关联：中高。Agent 长期运行后的行为退化是个真问题。InternOS 如果有长期 memory，也会面临类似的"路径依赖"风险。APEX 的 strategy map 思路可以作为 MemoryKernel 设计的参考——怎么让记忆帮助决策而不是限制决策。

7. SEAL: Synergistic Co-Evolution of Agents and Learning Environments

SEAL：Agent 与学习环境的协同进化

🔗 https://arxiv.org/abs/2605.24426

💡 一句话：指出现有 Agent 自进化方法只改策略或只改环境，导致"Agent-环境错位"。SEAL 让 Agent 和它的训练环境同步进化——环境根据 Agent 失败诊断调整反馈信号，Agent 根据诊断做优势加权更新。400 条训练数据就能获得 8-26 点提升。

🎯 关联：中。这是 meta 层面的思考——做 Agent 平台时，不光要优化 Agent 本身，还要优化 Agent 的工作环境（工具接口、反馈信号、约束提示）。对 InternOS 的启发是：Kernel 给 Agent 提供的接口和反馈本身也应该随 Agent 能力进化而调整。

本日总评：今天的论文质量很高。第 1 篇 (System Scaling) 几乎就是在给你做的事情提供学术框架，强烈建议精读。第 2 篇 (MACA) 和第 4 篇 (CausalFlow) 在多 Agent 编排和失败处理上有直接可用的设计思路。