Agent & LLM · 2026年6月6日
每日论文速递 · Agent & LLM
💡 一句话:首次对 agent memory 系统做系统级 benchmark,对比了 10 种代表性记忆方案(flat retrieval、LLM-mediated extraction、consolidating fact stores 等),给出了 construction scheduling、freshness-latency tradeoff、fleet-scale management 等 10 条工程建议。
I now have all the information I need. I have 7 excellent papers that are highly relevant to Anna's work. Let me compose the digest.
📄 每日论文速递 · Agent & LLM
日期:2026-06-06
1. Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads
Agent 记忆:有状态长程工作负载的特征分析与系统影响
🔗 https://arxiv.org/abs/2606.06448
💡 一句话:首次对 agent memory 系统做系统级 benchmark,对比了 10 种代表性记忆方案(flat retrieval、LLM-mediated extraction、consolidating fact stores 等),给出了 construction scheduling、freshness-latency tradeoff、fleet-scale management 等 10 条工程建议。
🎯 关联:极高。InternOS 的 memory/context 管理就是这个问题。他们的 write/read path 成本分析和 freshness-latency tradeoff 可以直接指导你的记忆层设计。
2. Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation
Token 预算:63 起 LLM-Agent 预算超支事故的经验目录,附 Affine 类型 Rust 防护方案
🔗 https://arxiv.org/abs/2606.04056
💡 一句话:从 21 个编排框架中收集了 63 起真实的 token 预算超支事故,归纳出 8 类故障模式,用 Rust affine ownership 做了一个编译期就能拦住 double-spend、delegation-fanout race 的 token 预算 crate。
🎯 关联:极高。这直接触碰 agent 平台的资源治理和安全边界问题。InternOS 做调度和编排时,token budget 的 delegation 控制是核心需求之一。而且他们那 8 类故障 taxonomy 是现成的 checklist。
3. Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents
Vortex:面向 AI Agent 的高效可编程稀疏注意力推理服务
🔗 https://arxiv.org/abs/2606.06453
💡 一句话:提出了一个 Python DSL + page-centric tensor 抽象的系统,让 AI agent 能自动生成和迭代稀疏注意力算法,最高达到 full attention 3.46x 的吞吐提升。在 B200 GPU 上对 MLA 架构(GLM-4.7-Flash)达到 4.7x 加速。
🎯 关联:高。Agent 在长上下文场景的 serving 效率是基础设施层面的痛点。如果 InternOS 将来跑 agent workload,sparse attention 是必须关注的推理优化方向。
4. ADK Arena: Evaluating Agent Development Kits via LLM-as-a-Developer
ADK 竞技场:用 LLM 当开发者来评估 Agent 开发框架
🔗 https://arxiv.org/abs/2606.05548
💡 一句话:用 LLM 代替人类开发者,对 51 个主流 Python Agent 框架做了标准化评测(SWE-bench、τ²-bench 等),发现没有单一框架在所有场景占优,generation 成本跨框架差 5.6 倍,且框架最好情况能打赢通用 coding agent。
🎯 关联:高。你在做 agent 平台选型和架构设计,这份 51 个 ADK 的横评数据是目前最全面的。结论"没有银弹"进一步验证了 InternOS 自建协调层的合理性。
5. Phase-Scheduled Multi-Agent Systems for Token-Efficient Coordination
相位调度多智能体系统:Token 高效协调
🔗 https://arxiv.org/abs/2604.17400
💡 一句话:把多 agent 激活建模为圆形流形上的相位调度问题——用 sweep signal 按任务依赖拓扑依次唤醒 agent,空闲 agent 只收压缩摘要。在 LangGraph 实现,token 用量减少 27.3% 且性能损失 <2.1%。
🎯 关联:极高。这就是 InternOS 里"跨 agent 调度"问题的一种形式化方案。他们的核心 insight——scheduling 和 compression 是独立的增益源——直接可借鉴到你的调度 kernel 设计中。
6. EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management
EvoDS:具备技能学习和上下文管理的自进化自主数据科学 Agent
🔗 https://arxiv.org/abs/2606.03841
💡 一句话:用 agentic RL 训练 agent 自主获取可复用技能(Autonomous Skill Acquisition)+ 学会压缩上下文(Adaptive Context Compression),在 4 个 benchmark 上比 SOTA 高 28.9%,且彻底消除了 out-of-token 失败。KDD 2026 接收。
🎯 关联:高。两个核心机制——skill reuse 和 learned context compression——跟 InternOS 的 agent 能力积累和长 session 管理直接对应。特别是把 context management 当 control problem 而非 truncation 的思路值得借鉴。
7. TRIAD: From Risk Classification to Action Plan Remediation — A Guardrail Feedback Driven Framework for LLM Agents
TRIAD:从风险分类到行动计划修复——护栏反馈驱动的 LLM Agent 框架
🔗 https://arxiv.org/abs/2606.05805
💡 一句话:提出三元决策(proceed/refuse/update)+ 结构化自然语言反馈的 guardrail-agent 闭环:guardrail 不只是 allow/deny,而是输出修复指导让 agent 修改计划保住良性部分。攻击成功率降到 10.42%,安全-效用 tradeoff 最优。
🎯 关联:中高。InternOS 做 agent 编排时必然要处理安全边界。TRIAD 的"不是简单拒绝而是引导修改"的理念,比 binary guardrail 高级一整个维度,适合集成到协调层的 policy enforcement 中。
今天值得深读的: #1(Agent Memory)和 #5(Phase-Scheduled MAS)跟你手头 InternOS 的 memory 管理和调度问题几乎是同一个 problem space,建议优先看。#2(Token Budgets)那个 8 类故障 taxonomy 可以直接拿来做 InternOS 的 failure mode checklist。