A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月7日

每日论文速递 · Agent & LLM

💡 一句话:首个对 Agent Memory 系统的系统级特征分析——涵盖 10 种代表性记忆系统,提出覆盖构建调度、能力下限、写读路径成本分摊、新鲜度-延迟权衡的 10 条系统设计建议。

I have all the information I need. I have 7 highly relevant papers from the last week (all submitted June 1-5, 2026). Let me compose the report.

📄 每日论文速递 · Agent & LLM

日期:2026-06-07


1. Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads

Agent 记忆:有状态长周期工作负载的特征分析与系统设计启示

💡 一句话:首个对 Agent Memory 系统的系统级特征分析——涵盖 10 种代表性记忆系统,提出覆盖构建调度、能力下限、写读路径成本分摊、新鲜度-延迟权衡的 10 条系统设计建议。

🎯 关联:极高。Anna 做 InternOS 的 memory/context 管理就是这个问题域。论文里的 "construction scheduling" 和 "fleet-scale management" 建议可以直接映射到 InternOS 的记忆层设计。


2. Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation

Token 预算:63 个 LLM-Agent 预算超支事件的经验目录,及仿射类型 Rust 缓解方案

💡 一句话:从 21 个编排框架收集了 63 个真实生产环境中 Agent token 超支事件,归为 8 类故障模式,然后用 Rust 的 affine type 系统做了一个"编译期就拒绝 double-spend"的 token budget crate。

🎯 关联:极高。InternOS 做多 Agent 调度必然要面对资源预算控制问题。论文中 "delegation-fanout race" 这个故障模式(11 个事件)跟多 Agent 委派场景完全对应。值得参考他们的故障分类学。


3. ADK Arena: Evaluating Agent Development Kits via LLM-as-a-Developer

ADK 竞技场:用 LLM-as-a-Developer 方法评估 Agent 开发框架

💡 一句话:自动化评估了 51 个 Python Agent 框架(LangChain、CrewAI 等全覆盖),用 LLM 当开发者写 Agent 代码,发现没有框架能通吃所有场景,最好的单基准框架能解决 80% 任务但中位数只有 32%。

🎯 关联:。如果 Anna 在选型或设计自己的 Agent 平台架构,这篇的定量比较和"API 复杂度 = 生成成本"的代理指标非常有参考价值。


4. MOSAIC: Efficient Mixture-of-Agent Scheduling via Adaptive Aggregation and Inference Concurrency

MOSAIC:通过自适应聚合和推理并发实现高效的混合 Agent 调度

💡 一句话:针对 Mixture-of-Agents 的 GPU 调度问题,用 ILP 优化 expert 放置 + 置信度感知的自适应聚合(高共识时跳过聚合器),4 GPU 上拿到 2.5x 端到端加速。

🎯 关联:。InternOS 的跨 Agent 调度虽然不一定在 GPU 层面,但"基于专家共识跳过聚合"和"ILP 调度"的思路可以类比到任务编排层——当多个 Agent 意见一致时省掉协调开销。


5. EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

EvoDS:具备技能学习和上下文管理的自进化数据科学 Agent

💡 一句话:Agent 通过 RL 自主学会合成新技能并做自适应上下文压缩(把 context 管理当控制问题而非被动截断),比 SOTA 开源 Agent 平均高 28.9%,彻底消除 token 溢出。KDD2026 接收。

🎯 关联:。"把 context management 当 learned control problem" 这个思路直接对标 InternOS 的 memory 设计哲学。Skill Acquisition 机制也和 Agent 平台的能力扩展方案相关。


6. Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents

Vortex:面向 AI Agent 的高效可编程稀疏注意力服务系统

💡 一句话:一个让 AI Agent 能自动生成和迭代稀疏注意力算法的系统,用 Python DSL + page-centric 抽象把理论效率增益转化为实际吞吐提升(最高 4.7x),Agent 自己设计出最优算法。

🎯 关联:中高。偏底层 serving 优化,但"Agent 自动设计自己的推理效率方案"这个 meta 思路有意思——Agent 平台未来可能需要类似的自优化能力。


7. CollabSim: A CSCW-Grounded Methodology for Investigating Collaborative Competence of LLM Agents

CollabSim:基于 CSCW 理论的 LLM Agent 协作能力研究方法论

💡 一句话:把 CSCW(计算机支持的协同工作)几十年的研究搬到多 Agent 系统评估上——不只看任务结果,而是测 Agent 建立共识、维护共享理解、修复对齐偏差的能力。

🎯 关联:。InternOS 本身就是组织协调系统,这篇的 "collaborative competence" 框架(common ground、shared task understanding、misalignment repair)直接对应 InternOS 要解决的协调问题,只不过这里是 Agent-to-Agent。


8. Microskill Architecture: A Modular Skill-Driven Framework for AI-Native Code Generation

Microskill 架构:面向 AI 原生代码生成的模块化技能驱动框架

💡 一句话:借鉴微服务思想,把知识封装成原子级 skill capsule + 语义路由器按需选取,token 消耗降 90%,首次编译成功率翻倍,还能自学习提取新技能。

🎯 关联:中高。"知识的微服务化"这个思路跟 Agent 平台的能力注册、工具管理、context 优化都有直接映射。InternOS 如果要做 skill/tool registry,这是一个很好的参考架构。


本周观察:Agent Memory 和 Token Budget 控制成为热点——业界开始正式面对 Agent 从 demo 到生产的工程化挑战。多篇论文不约而同关注"自进化"和"自适应",Agent 不只是执行器,而是要学会管理自己的资源和能力边界。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-07 09:04:55
源文件
2026-06-07_09-04-55.md
链接数
8