A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月1日

每日论文速递 · Agent & LLM

💡 一句话:把 Agent 的历史执行轨迹提炼成技能和失败教训,组织成可检索的经验图谱,让任意冻结的 LLM executor 通过外部经验复用变强——不需要微调。在 agentic 环境(ALFWorld/AppWorld)上比最强 baseline 提升 12-21%。

I now have enough high-quality papers. Let me compile the final report. I've identified 7 highly relevant papers from the past week, all submitted within the last month (May 2026). Let me compose the digest.

📄 每日论文速递 · Agent & LLM

日期:2026-06-01


1. ExpGraph: Model-Agnostic Experience Learning with Graph-Structured Memory for LLM Agents

(ExpGraph:基于图结构记忆的模型无关经验学习框架)

💡 一句话:把 Agent 的历史执行轨迹提炼成技能和失败教训,组织成可检索的经验图谱,让任意冻结的 LLM executor 通过外部经验复用变强——不需要微调。在 agentic 环境(ALFWorld/AppWorld)上比最强 baseline 提升 12-21%。

🎯 关联:。InternOS 做任务编排,核心挑战之一就是 Agent 怎么积累和复用经验。ExpGraph 的"经验图 + utility-aware ranking + RL 训练的检索 copilot"这套架构,跟你在 InternOS 里设计 memory 层可以直接对标——特别是它不绑定 executor 模型这一点,跟你的多 kernel 架构理念一致。


2. ElasticMem: Latent Memory as a Learnable Resource for LLM Agents

(ElasticMem:将隐空间记忆作为可学习资源供 Agent 使用)

💡 一句话:把 Agent 的长期记忆从"检索文本塞进 context"变成"隐空间 soft token 注入",通过 RL 学出弹性预算策略——每次查询动态决定给多少记忆容量。在 QA 上提升 24-26%,ALFWorld 上提升 27-66%,同时 token 消耗最低。

🎯 关联:。跟上面 ExpGraph 是同一批作者,但切入角度不同——ExpGraph 做经验结构化,ElasticMem 做 memory 的资源化管理。对 InternOS 的 memory 系统设计有直接参考价值:不是所有记忆都值得占 context,弹性分配是对的方向。


3. AutoSci: A Memory-Centric Agentic System for the Full Scientific Research Lifecycle

(AutoSci:以记忆为核心的全科研生命周期 Agent 系统)

💡 一句话:设计了 SciMem(长期知识记忆 + 活跃项目记忆)、SciFlow(五阶段生命周期编排)、SciDAG(DAG 形多 Agent 算子)、SciEvolve(从反馈中自演化)四模块架构,让 Agent 系统在跨项目的科研流程中持续学习和改进。

🎯 关联:。虽然场景是科研,但架构设计跟 InternOS 高度同构——schema-governed memory 分层、DAG 形 task 编排、从反馈信号做版本化更新。特别是"持久化研究环境 + 跨项目记忆演化"的设计思路,对你思考 InternOS 怎么做跨任务知识沉淀有直接启发。


4. How to Steer Your Multi-Agent System: Human-LLM Collaborative Planning

(如何驾驭你的多 Agent 系统:人机协同规划)

💡 一句话:系统化地定义了人在多 Agent 系统里干预 plan 的设计空间——从语义 vs 结构、全局 vs 局部、低级 vs 高级编辑三个维度拆解,用用户实验揭示了"控制力-风险-努力"的 trade-off。

🎯 关联:。InternOS 做组织协调,核心问题之一就是人怎么介入 Agent 的执行计划。这篇直接给了一套分析框架:process-level supervision 比 outcome-level 好在哪、什么时候用结构化编辑什么时候用语义指令。可以直接指导 InternOS 的 human-in-the-loop 设计。


5. Counterfactual Graph for Multi-Agent LLM Calibration

(用反事实图校准多 Agent LLM 系统的置信度)

💡 一句话:揭示了多 Agent 系统的一个根本问题——Agent 之间通信后会产生虚假共识(多个 Agent 同意不代表答案对),提出用反事实图比较"有通信"vs"无通信"下的依赖结构差异来校准置信度。

🎯 关联:中高。多 Agent 编排里,Agent 投票/共识机制是常见 pattern,但这篇指出通信会制造相关性失败和假共识。对 InternOS 做多 Agent 决策聚合时是个重要警告——不能简单靠多数 Agent 同意就认为结论可靠。


6. Orchard: An Open-Source Agentic Modeling Framework

(Orchard:开源 Agent 建模框架)

💡 一句话:微软出品。核心是 Orchard Env——一个轻量级环境服务层,提供 sandbox 生命周期管理的复用原语。在此基础上做了 SWE agent(SWE-bench 67.5%,开源 SOTA)、GUI agent、个人助理 agent 三个场景。关键洞察:训练 Agent 的瓶颈不是模型而是 harness 基础设施。

🎯 关联:。你在做 Agent 平台,Orchard 的 Env 层设计——跨任务域的 sandbox lifecycle management、harness-agnostic environment——跟你的架构目标高度一致。特别是它的 credit-assignment SFT(从未完成的轨迹中学习有效片段)和 balanced adaptive rollout RL,是当前 Agent 训练的最佳实践参考。


7. SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents

(SpecBench:评估 SWE Agent 的规格级推理能力)

💡 一句话:SWE-Bench 测的是"给定 spec 写代码",这篇测的是更上游的能力——Agent 能不能在初始设计方案中发现遗漏、歧义、不一致。用 Kubernetes/React/Rust/vLLM 等项目的真实 RFC 评审数据构建 benchmark,当前最强 Agent(GPT-5.4)只做到 44.4%。

🎯 关联:中高。如果 InternOS 要让 Agent 参与需求评审或方案设计,这篇直接说明了当前 Agent 在 spec-level reasoning 上的天花板在哪。44.4% 的准确率意味着 Agent 做 spec review 还不靠谱,human-in-the-loop 在这个环节不可少。


今日观察:这周的论文有个明显趋势——Agent Memory 成为独立的一等公民设计。ExpGraph、ElasticMem、AutoSci 三篇从不同角度(经验图、隐空间弹性预算、schema-governed 分层)在解决同一个问题:Agent 不能每次从零开始,得有结构化的记忆系统。这跟你在 InternOS 里思考的 memory 层设计方向完全一致,值得深挖。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-01 09:06:30
源文件
2026-06-01_09-06-30.md
链接数
7