Agent & LLM · 2026年6月7日
每日论文速递 · Agent & LLM
💡 一句话:首个对 Agent Memory 系统的系统级特征分析——涵盖 10 种代表性记忆系统,提出覆盖构建调度、能力下限、写读路径成本分摊、新鲜度-延迟权衡的 10 条系统设计建议。
I have all the information I need. I have 7 highly relevant papers from the last week (all submitted June 1-5, 2026). Let me compose the report.
📄 每日论文速递 · Agent & LLM
日期:2026-06-07
1. Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads
Agent 记忆:有状态长周期工作负载的特征分析与系统设计启示
🔗 https://arxiv.org/abs/2606.06448
💡 一句话:首个对 Agent Memory 系统的系统级特征分析——涵盖 10 种代表性记忆系统,提出覆盖构建调度、能力下限、写读路径成本分摊、新鲜度-延迟权衡的 10 条系统设计建议。
🎯 关联:极高。Anna 做 InternOS 的 memory/context 管理就是这个问题域。论文里的 "construction scheduling" 和 "fleet-scale management" 建议可以直接映射到 InternOS 的记忆层设计。
2. Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation
Token 预算:63 个 LLM-Agent 预算超支事件的经验目录,及仿射类型 Rust 缓解方案
🔗 https://arxiv.org/abs/2606.04056
💡 一句话:从 21 个编排框架收集了 63 个真实生产环境中 Agent token 超支事件,归为 8 类故障模式,然后用 Rust 的 affine type 系统做了一个"编译期就拒绝 double-spend"的 token budget crate。
🎯 关联:极高。InternOS 做多 Agent 调度必然要面对资源预算控制问题。论文中 "delegation-fanout race" 这个故障模式(11 个事件)跟多 Agent 委派场景完全对应。值得参考他们的故障分类学。
3. ADK Arena: Evaluating Agent Development Kits via LLM-as-a-Developer
ADK 竞技场:用 LLM-as-a-Developer 方法评估 Agent 开发框架
🔗 https://arxiv.org/abs/2606.05548
💡 一句话:自动化评估了 51 个 Python Agent 框架(LangChain、CrewAI 等全覆盖),用 LLM 当开发者写 Agent 代码,发现没有框架能通吃所有场景,最好的单基准框架能解决 80% 任务但中位数只有 32%。
🎯 关联:高。如果 Anna 在选型或设计自己的 Agent 平台架构,这篇的定量比较和"API 复杂度 = 生成成本"的代理指标非常有参考价值。
4. MOSAIC: Efficient Mixture-of-Agent Scheduling via Adaptive Aggregation and Inference Concurrency
MOSAIC:通过自适应聚合和推理并发实现高效的混合 Agent 调度
🔗 https://arxiv.org/abs/2606.03014
💡 一句话:针对 Mixture-of-Agents 的 GPU 调度问题,用 ILP 优化 expert 放置 + 置信度感知的自适应聚合(高共识时跳过聚合器),4 GPU 上拿到 2.5x 端到端加速。
🎯 关联:高。InternOS 的跨 Agent 调度虽然不一定在 GPU 层面,但"基于专家共识跳过聚合"和"ILP 调度"的思路可以类比到任务编排层——当多个 Agent 意见一致时省掉协调开销。
5. EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management
EvoDS:具备技能学习和上下文管理的自进化数据科学 Agent
🔗 https://arxiv.org/abs/2606.03841
💡 一句话:Agent 通过 RL 自主学会合成新技能并做自适应上下文压缩(把 context 管理当控制问题而非被动截断),比 SOTA 开源 Agent 平均高 28.9%,彻底消除 token 溢出。KDD2026 接收。
🎯 关联:高。"把 context management 当 learned control problem" 这个思路直接对标 InternOS 的 memory 设计哲学。Skill Acquisition 机制也和 Agent 平台的能力扩展方案相关。
6. Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents
Vortex:面向 AI Agent 的高效可编程稀疏注意力服务系统
🔗 https://arxiv.org/abs/2606.06453
💡 一句话:一个让 AI Agent 能自动生成和迭代稀疏注意力算法的系统,用 Python DSL + page-centric 抽象把理论效率增益转化为实际吞吐提升(最高 4.7x),Agent 自己设计出最优算法。
🎯 关联:中高。偏底层 serving 优化,但"Agent 自动设计自己的推理效率方案"这个 meta 思路有意思——Agent 平台未来可能需要类似的自优化能力。
7. CollabSim: A CSCW-Grounded Methodology for Investigating Collaborative Competence of LLM Agents
CollabSim:基于 CSCW 理论的 LLM Agent 协作能力研究方法论
🔗 https://arxiv.org/abs/2606.06399
💡 一句话:把 CSCW(计算机支持的协同工作)几十年的研究搬到多 Agent 系统评估上——不只看任务结果,而是测 Agent 建立共识、维护共享理解、修复对齐偏差的能力。
🎯 关联:高。InternOS 本身就是组织协调系统,这篇的 "collaborative competence" 框架(common ground、shared task understanding、misalignment repair)直接对应 InternOS 要解决的协调问题,只不过这里是 Agent-to-Agent。
8. Microskill Architecture: A Modular Skill-Driven Framework for AI-Native Code Generation
Microskill 架构:面向 AI 原生代码生成的模块化技能驱动框架
🔗 https://arxiv.org/abs/2606.05720
💡 一句话:借鉴微服务思想,把知识封装成原子级 skill capsule + 语义路由器按需选取,token 消耗降 90%,首次编译成功率翻倍,还能自学习提取新技能。
🎯 关联:中高。"知识的微服务化"这个思路跟 Agent 平台的能力注册、工具管理、context 优化都有直接映射。InternOS 如果要做 skill/tool registry,这是一个很好的参考架构。
本周观察:Agent Memory 和 Token Budget 控制成为热点——业界开始正式面对 Agent 从 demo 到生产的工程化挑战。多篇论文不约而同关注"自进化"和"自适应",Agent 不只是执行器,而是要学会管理自己的资源和能力边界。