Agent & LLM · 2026年6月7日

每日论文速递 · Agent & LLM

💡 一句话：首个对 Agent Memory 系统的系统级特征分析——涵盖 10 种代表性记忆系统，提出覆盖构建调度、能力下限、写读路径成本分摊、新鲜度-延迟权衡的 10 条系统设计建议。

2026-06-07 09:04:558 篇论文条目

arXiv:2606.06448 arXiv:2606.04056 arXiv:2606.05548 arXiv:2606.03014 arXiv:2606.03841 arXiv:2606.06453 arXiv:2606.06399 arXiv:2606.05720

I have all the information I need. I have 7 highly relevant papers from the last week (all submitted June 1-5, 2026). Let me compose the report.

📄 每日论文速递 · Agent & LLM

日期：2026-06-07

1. Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads

Agent 记忆：有状态长周期工作负载的特征分析与系统设计启示

🔗 https://arxiv.org/abs/2606.06448

🎯 关联：极高。Anna 做 InternOS 的 memory/context 管理就是这个问题域。论文里的 "construction scheduling" 和 "fleet-scale management" 建议可以直接映射到 InternOS 的记忆层设计。

2. Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation

Token 预算：63 个 LLM-Agent 预算超支事件的经验目录，及仿射类型 Rust 缓解方案

🔗 https://arxiv.org/abs/2606.04056

💡 一句话：从 21 个编排框架收集了 63 个真实生产环境中 Agent token 超支事件，归为 8 类故障模式，然后用 Rust 的 affine type 系统做了一个"编译期就拒绝 double-spend"的 token budget crate。

🎯 关联：极高。InternOS 做多 Agent 调度必然要面对资源预算控制问题。论文中 "delegation-fanout race" 这个故障模式（11 个事件）跟多 Agent 委派场景完全对应。值得参考他们的故障分类学。

3. ADK Arena: Evaluating Agent Development Kits via LLM-as-a-Developer

ADK 竞技场：用 LLM-as-a-Developer 方法评估 Agent 开发框架

🔗 https://arxiv.org/abs/2606.05548

💡 一句话：自动化评估了 51 个 Python Agent 框架（LangChain、CrewAI 等全覆盖），用 LLM 当开发者写 Agent 代码，发现没有框架能通吃所有场景，最好的单基准框架能解决 80% 任务但中位数只有 32%。

🎯 关联：高。如果 Anna 在选型或设计自己的 Agent 平台架构，这篇的定量比较和"API 复杂度 = 生成成本"的代理指标非常有参考价值。

4. MOSAIC: Efficient Mixture-of-Agent Scheduling via Adaptive Aggregation and Inference Concurrency

MOSAIC：通过自适应聚合和推理并发实现高效的混合 Agent 调度

🔗 https://arxiv.org/abs/2606.03014

💡 一句话：针对 Mixture-of-Agents 的 GPU 调度问题，用 ILP 优化 expert 放置 + 置信度感知的自适应聚合（高共识时跳过聚合器），4 GPU 上拿到 2.5x 端到端加速。

🎯 关联：高。InternOS 的跨 Agent 调度虽然不一定在 GPU 层面，但"基于专家共识跳过聚合"和"ILP 调度"的思路可以类比到任务编排层——当多个 Agent 意见一致时省掉协调开销。

5. EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

EvoDS：具备技能学习和上下文管理的自进化数据科学 Agent

🔗 https://arxiv.org/abs/2606.03841

💡 一句话：Agent 通过 RL 自主学会合成新技能并做自适应上下文压缩（把 context 管理当控制问题而非被动截断），比 SOTA 开源 Agent 平均高 28.9%，彻底消除 token 溢出。KDD2026 接收。

🎯 关联：高。"把 context management 当 learned control problem" 这个思路直接对标 InternOS 的 memory 设计哲学。Skill Acquisition 机制也和 Agent 平台的能力扩展方案相关。

6. Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents

Vortex：面向 AI Agent 的高效可编程稀疏注意力服务系统

🔗 https://arxiv.org/abs/2606.06453

💡 一句话：一个让 AI Agent 能自动生成和迭代稀疏注意力算法的系统，用 Python DSL + page-centric 抽象把理论效率增益转化为实际吞吐提升（最高 4.7x），Agent 自己设计出最优算法。

🎯 关联：中高。偏底层 serving 优化，但"Agent 自动设计自己的推理效率方案"这个 meta 思路有意思——Agent 平台未来可能需要类似的自优化能力。

7. CollabSim: A CSCW-Grounded Methodology for Investigating Collaborative Competence of LLM Agents

CollabSim：基于 CSCW 理论的 LLM Agent 协作能力研究方法论

🔗 https://arxiv.org/abs/2606.06399

💡 一句话：把 CSCW（计算机支持的协同工作）几十年的研究搬到多 Agent 系统评估上——不只看任务结果，而是测 Agent 建立共识、维护共享理解、修复对齐偏差的能力。

🎯 关联：高。InternOS 本身就是组织协调系统，这篇的 "collaborative competence" 框架（common ground、shared task understanding、misalignment repair）直接对应 InternOS 要解决的协调问题，只不过这里是 Agent-to-Agent。

8. Microskill Architecture: A Modular Skill-Driven Framework for AI-Native Code Generation

Microskill 架构：面向 AI 原生代码生成的模块化技能驱动框架

🔗 https://arxiv.org/abs/2606.05720

💡 一句话：借鉴微服务思想，把知识封装成原子级 skill capsule + 语义路由器按需选取，token 消耗降 90%，首次编译成功率翻倍，还能自学习提取新技能。

🎯 关联：中高。"知识的微服务化"这个思路跟 Agent 平台的能力注册、工具管理、context 优化都有直接映射。InternOS 如果要做 skill/tool registry，这是一个很好的参考架构。

本周观察：Agent Memory 和 Token Budget 控制成为热点——业界开始正式面对 Agent 从 demo 到生产的工程化挑战。多篇论文不约而同关注"自进化"和"自适应"，Agent 不只是执行器，而是要学会管理自己的资源和能力边界。