Agent & LLM · 2026年6月1日

每日论文速递 · Agent & LLM

💡 一句话：把 Agent 的历史执行轨迹提炼成技能和失败教训，组织成可检索的经验图谱，让任意冻结的 LLM executor 通过外部经验复用变强——不需要微调。在 agentic 环境（ALFWorld/AppWorld）上比最强 baseline 提升 12-21%。

2026-06-01 09:06:307 篇论文条目

arXiv:2605.30712 arXiv:2605.30690 arXiv:2605.31468 arXiv:2605.23023 arXiv:2605.30653 arXiv:2605.15040 arXiv:2605.30314

I now have enough high-quality papers. Let me compile the final report. I've identified 7 highly relevant papers from the past week, all submitted within the last month (May 2026). Let me compose the digest.

📄 每日论文速递 · Agent & LLM

日期：2026-06-01

1. ExpGraph: Model-Agnostic Experience Learning with Graph-Structured Memory for LLM Agents

（ExpGraph：基于图结构记忆的模型无关经验学习框架）

🔗 https://arxiv.org/abs/2605.30712

🎯 关联：高。InternOS 做任务编排，核心挑战之一就是 Agent 怎么积累和复用经验。ExpGraph 的"经验图 + utility-aware ranking + RL 训练的检索 copilot"这套架构，跟你在 InternOS 里设计 memory 层可以直接对标——特别是它不绑定 executor 模型这一点，跟你的多 kernel 架构理念一致。

2. ElasticMem: Latent Memory as a Learnable Resource for LLM Agents

（ElasticMem：将隐空间记忆作为可学习资源供 Agent 使用）

🔗 https://arxiv.org/abs/2605.30690

💡 一句话：把 Agent 的长期记忆从"检索文本塞进 context"变成"隐空间 soft token 注入"，通过 RL 学出弹性预算策略——每次查询动态决定给多少记忆容量。在 QA 上提升 24-26%，ALFWorld 上提升 27-66%，同时 token 消耗最低。

🎯 关联：高。跟上面 ExpGraph 是同一批作者，但切入角度不同——ExpGraph 做经验结构化，ElasticMem 做 memory 的资源化管理。对 InternOS 的 memory 系统设计有直接参考价值：不是所有记忆都值得占 context，弹性分配是对的方向。

3. AutoSci: A Memory-Centric Agentic System for the Full Scientific Research Lifecycle

（AutoSci：以记忆为核心的全科研生命周期 Agent 系统）

🔗 https://arxiv.org/abs/2605.31468

💡 一句话：设计了 SciMem（长期知识记忆 + 活跃项目记忆）、SciFlow（五阶段生命周期编排）、SciDAG（DAG 形多 Agent 算子）、SciEvolve（从反馈中自演化）四模块架构，让 Agent 系统在跨项目的科研流程中持续学习和改进。

🎯 关联：高。虽然场景是科研，但架构设计跟 InternOS 高度同构——schema-governed memory 分层、DAG 形 task 编排、从反馈信号做版本化更新。特别是"持久化研究环境 + 跨项目记忆演化"的设计思路，对你思考 InternOS 怎么做跨任务知识沉淀有直接启发。

4. How to Steer Your Multi-Agent System: Human-LLM Collaborative Planning

（如何驾驭你的多 Agent 系统：人机协同规划）

🔗 https://arxiv.org/abs/2605.23023

💡 一句话：系统化地定义了人在多 Agent 系统里干预 plan 的设计空间——从语义 vs 结构、全局 vs 局部、低级 vs 高级编辑三个维度拆解，用用户实验揭示了"控制力-风险-努力"的 trade-off。

🎯 关联：高。InternOS 做组织协调，核心问题之一就是人怎么介入 Agent 的执行计划。这篇直接给了一套分析框架：process-level supervision 比 outcome-level 好在哪、什么时候用结构化编辑什么时候用语义指令。可以直接指导 InternOS 的 human-in-the-loop 设计。

5. Counterfactual Graph for Multi-Agent LLM Calibration

（用反事实图校准多 Agent LLM 系统的置信度）

🔗 https://arxiv.org/abs/2605.30653

💡 一句话：揭示了多 Agent 系统的一个根本问题——Agent 之间通信后会产生虚假共识（多个 Agent 同意不代表答案对），提出用反事实图比较"有通信"vs"无通信"下的依赖结构差异来校准置信度。

🎯 关联：中高。多 Agent 编排里，Agent 投票/共识机制是常见 pattern，但这篇指出通信会制造相关性失败和假共识。对 InternOS 做多 Agent 决策聚合时是个重要警告——不能简单靠多数 Agent 同意就认为结论可靠。

6. Orchard: An Open-Source Agentic Modeling Framework

（Orchard：开源 Agent 建模框架）

🔗 https://arxiv.org/abs/2605.15040

💡 一句话：微软出品。核心是 Orchard Env——一个轻量级环境服务层，提供 sandbox 生命周期管理的复用原语。在此基础上做了 SWE agent（SWE-bench 67.5%，开源 SOTA）、GUI agent、个人助理 agent 三个场景。关键洞察：训练 Agent 的瓶颈不是模型而是 harness 基础设施。

🎯 关联：高。你在做 Agent 平台，Orchard 的 Env 层设计——跨任务域的 sandbox lifecycle management、harness-agnostic environment——跟你的架构目标高度一致。特别是它的 credit-assignment SFT（从未完成的轨迹中学习有效片段）和 balanced adaptive rollout RL，是当前 Agent 训练的最佳实践参考。

7. SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents

（SpecBench：评估 SWE Agent 的规格级推理能力）

🔗 https://arxiv.org/abs/2605.30314

💡 一句话：SWE-Bench 测的是"给定 spec 写代码"，这篇测的是更上游的能力——Agent 能不能在初始设计方案中发现遗漏、歧义、不一致。用 Kubernetes/React/Rust/vLLM 等项目的真实 RFC 评审数据构建 benchmark，当前最强 Agent（GPT-5.4）只做到 44.4%。

🎯 关联：中高。如果 InternOS 要让 Agent 参与需求评审或方案设计，这篇直接说明了当前 Agent 在 spec-level reasoning 上的天花板在哪。44.4% 的准确率意味着 Agent 做 spec review 还不靠谱，human-in-the-loop 在这个环节不可少。

今日观察：这周的论文有个明显趋势——Agent Memory 成为独立的一等公民设计。ExpGraph、ElasticMem、AutoSci 三篇从不同角度（经验图、隐空间弹性预算、schema-governed 分层）在解决同一个问题：Agent 不能每次从零开始，得有结构化的记忆系统。这跟你在 InternOS 里思考的 memory 层设计方向完全一致，值得深挖。