Agent & LLM · 2026年5月26日
每日论文速递 · Agent & LLM
💡 一句话:提出 Agent 系统的瓶颈不在模型本身,而在模型外面的harness——memory、context 构造、skill routing、编排循环、验证治理这一整套执行层。构建了 CheetahClaws 参考实现,跟 Claude Code 和 OpenClaw 做了对比。
I now have enough material for a solid selection. I have 7 highly relevant papers all from the last few days (May 20-26, 2026). Let me compile the report.
📄 每日论文速递 · Agent & LLM
日期:2026-05-26
1. From Model Scaling to System Scaling: Scaling the Harness in Agentic AI
从模型扩展到系统扩展:Agentic AI 中的 Harness 扩展
🔗 https://arxiv.org/abs/2605.26112
💡 一句话:提出 Agent 系统的瓶颈不在模型本身,而在模型外面的"harness"——memory、context 构造、skill routing、编排循环、验证治理这一整套执行层。构建了 CheetahClaws 参考实现,跟 Claude Code 和 OpenClaw 做了对比。
🎯 关联:极高。这篇论文的核心论点——把 Agent Harness(编排层、memory 基底、上下文治理)当作一等公民来设计——跟 InternOS 的 7 Kernel 架构思路高度同构。他提出的 context governance、trustworthy memory、dynamic skill routing 三大瓶颈,几乎就是你在做的 MemoryKernel / ContextKernel / SchedulerKernel 要解决的问题。值得细读。
2. MACA: Multi-Agent Coordination Adaptation via Structure-Guided Orchestration
MACA:基于结构引导编排的多智能体协调适应框架
🔗 https://arxiv.org/abs/2605.25746
💡 一句话:用概率视角重新定义多 Agent 协调——把它建模为"结构 + 编排"的联合后验推断,学一个 task/budget-conditioned 的结构先验来引导策略编排。比纯 adaptive 方法平均高 8.42%,省 43% token。
🎯 关联:高。InternOS 里多 Kernel 之间的协调调度本质上也是结构(谁参与)+ 编排(怎么流转)的联合优化。MACA 的"结构先验"概念可以类比为你给不同任务类型预设的 Kernel 调度模板。
3. VeriTrace: Evolving Mental Models for Deep Research Agents
VeriTrace:深度研究 Agent 的可进化心智模型
🔗 https://arxiv.org/abs/2605.26081
💡 一句话:给 Deep Research Agent 设计了三个显式反馈环(解释更新、偏差反馈、schema 修订),用认知图谱框架让 Agent 的中间表示在任务过程中持续自我校正,而不是全靠模型隐式推理。在 DRB 上提升 4.22pp。
🎯 关联:高。这个"三个反馈环"的设计跟 InternOS 里承诺跟踪机制的思路相通——不是一次性规划,而是在执行过程中不断对齐预期和现实。schema revision 也跟你之前讨论的"任务结构动态演化"相关。
4. CausalFlow: Causal Attribution and Counterfactual Repair for LLM Agent Failures
CausalFlow:LLM Agent 失败的因果归因与反事实修复
🔗 https://arxiv.org/abs/2605.25338
💡 一句话:把 Agent 执行失败的 trace 建模为因果链,通过逐步反事实干预计算"因果责任分数",精确定位失败步骤,生成最小修复补丁。既能运行时修复,也能生成训练数据。
🎯 关联:高。做 Agent 平台就绕不开"失败了怎么办"。CausalFlow 的方法比简单重试高级得多——它能告诉你是哪一步出了问题、最小改什么能修好。这对 InternOS 未来的 Agent 可靠性层(verification/governance)是直接可借鉴的思路。
5. CoRe-Code: Collaborative Reinforcement Learning for Code Generation
CoRe-Code:协作强化学习代码生成
🔗 https://arxiv.org/abs/2605.24812
💡 一句话:用 Planner-Coder 两个角色专精的 Agent 做代码生成,再用 GRPO 做协作感知的 RL 训练来增强角色分工和对齐。在多个 benchmark 上超过现有 RL 和多 Agent 方法,且能泛化到 Retrieval/Debugging Agent。
🎯 关联:中高。多 Agent 代码生成的范式验证——Planner + Coder 的角色分工加上 RL 协调训练。如果 InternOS 未来要接入代码生成任务,这个架构模式值得参考。
6. APEX: Autonomous Policy Exploration for Self-Evolving LLM Agents
APEX:自主策略探索的自进化 LLM Agent
🔗 https://arxiv.org/abs/2605.21240
💡 一句话:解决自进化 Agent 的"探索坍缩"问题——随着记忆积累,Agent 会越来越倾向已知套路。APEX 用 DAG 结构的 strategy map 做显式策略空间管理,平衡探索和利用。
🎯 关联:中高。Agent 长期运行后的行为退化是个真问题。InternOS 如果有长期 memory,也会面临类似的"路径依赖"风险。APEX 的 strategy map 思路可以作为 MemoryKernel 设计的参考——怎么让记忆帮助决策而不是限制决策。
7. SEAL: Synergistic Co-Evolution of Agents and Learning Environments
SEAL:Agent 与学习环境的协同进化
🔗 https://arxiv.org/abs/2605.24426
💡 一句话:指出现有 Agent 自进化方法只改策略或只改环境,导致"Agent-环境错位"。SEAL 让 Agent 和它的训练环境同步进化——环境根据 Agent 失败诊断调整反馈信号,Agent 根据诊断做优势加权更新。400 条训练数据就能获得 8-26 点提升。
🎯 关联:中。这是 meta 层面的思考——做 Agent 平台时,不光要优化 Agent 本身,还要优化 Agent 的工作环境(工具接口、反馈信号、约束提示)。对 InternOS 的启发是:Kernel 给 Agent 提供的接口和反馈本身也应该随 Agent 能力进化而调整。
本日总评:今天的论文质量很高。第 1 篇 (System Scaling) 几乎就是在给你做的事情提供学术框架,强烈建议精读。第 2 篇 (MACA) 和第 4 篇 (CausalFlow) 在多 Agent 编排和失败处理上有直接可用的设计思路。