Agent & LLM · 2026年6月6日

每日论文速递 · Agent & LLM

💡 一句话：首次对 agent memory 系统做系统级 benchmark，对比了 10 种代表性记忆方案（flat retrieval、LLM-mediated extraction、consolidating fact stores 等），给出了 construction scheduling、freshness-latency tradeoff、fleet-scale management 等 10 条工程建议。

2026-06-06 09:05:257 篇论文条目

arXiv:2606.06448 arXiv:2606.04056 arXiv:2606.06453 arXiv:2606.05548 arXiv:2604.17400 arXiv:2606.03841 arXiv:2606.05805

I now have all the information I need. I have 7 excellent papers that are highly relevant to Anna's work. Let me compose the digest.

📄 每日论文速递 · Agent & LLM

日期：2026-06-06

1. Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads

Agent 记忆：有状态长程工作负载的特征分析与系统影响

🔗 https://arxiv.org/abs/2606.06448

🎯 关联：极高。InternOS 的 memory/context 管理就是这个问题。他们的 write/read path 成本分析和 freshness-latency tradeoff 可以直接指导你的记忆层设计。

2. Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation

Token 预算：63 起 LLM-Agent 预算超支事故的经验目录，附 Affine 类型 Rust 防护方案

🔗 https://arxiv.org/abs/2606.04056

💡 一句话：从 21 个编排框架中收集了 63 起真实的 token 预算超支事故，归纳出 8 类故障模式，用 Rust affine ownership 做了一个编译期就能拦住 double-spend、delegation-fanout race 的 token 预算 crate。

🎯 关联：极高。这直接触碰 agent 平台的资源治理和安全边界问题。InternOS 做调度和编排时，token budget 的 delegation 控制是核心需求之一。而且他们那 8 类故障 taxonomy 是现成的 checklist。

3. Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents

Vortex：面向 AI Agent 的高效可编程稀疏注意力推理服务

🔗 https://arxiv.org/abs/2606.06453

💡 一句话：提出了一个 Python DSL + page-centric tensor 抽象的系统，让 AI agent 能自动生成和迭代稀疏注意力算法，最高达到 full attention 3.46x 的吞吐提升。在 B200 GPU 上对 MLA 架构（GLM-4.7-Flash）达到 4.7x 加速。

🎯 关联：高。Agent 在长上下文场景的 serving 效率是基础设施层面的痛点。如果 InternOS 将来跑 agent workload，sparse attention 是必须关注的推理优化方向。

4. ADK Arena: Evaluating Agent Development Kits via LLM-as-a-Developer

ADK 竞技场：用 LLM 当开发者来评估 Agent 开发框架

🔗 https://arxiv.org/abs/2606.05548

💡 一句话：用 LLM 代替人类开发者，对 51 个主流 Python Agent 框架做了标准化评测（SWE-bench、τ²-bench 等），发现没有单一框架在所有场景占优，generation 成本跨框架差 5.6 倍，且框架最好情况能打赢通用 coding agent。

🎯 关联：高。你在做 agent 平台选型和架构设计，这份 51 个 ADK 的横评数据是目前最全面的。结论"没有银弹"进一步验证了 InternOS 自建协调层的合理性。

5. Phase-Scheduled Multi-Agent Systems for Token-Efficient Coordination

相位调度多智能体系统：Token 高效协调

🔗 https://arxiv.org/abs/2604.17400

💡 一句话：把多 agent 激活建模为圆形流形上的相位调度问题——用 sweep signal 按任务依赖拓扑依次唤醒 agent，空闲 agent 只收压缩摘要。在 LangGraph 实现，token 用量减少 27.3% 且性能损失 <2.1%。

🎯 关联：极高。这就是 InternOS 里"跨 agent 调度"问题的一种形式化方案。他们的核心 insight——scheduling 和 compression 是独立的增益源——直接可借鉴到你的调度 kernel 设计中。

6. EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

EvoDS：具备技能学习和上下文管理的自进化自主数据科学 Agent

🔗 https://arxiv.org/abs/2606.03841

💡 一句话：用 agentic RL 训练 agent 自主获取可复用技能（Autonomous Skill Acquisition）+ 学会压缩上下文（Adaptive Context Compression），在 4 个 benchmark 上比 SOTA 高 28.9%，且彻底消除了 out-of-token 失败。KDD 2026 接收。

🎯 关联：高。两个核心机制——skill reuse 和 learned context compression——跟 InternOS 的 agent 能力积累和长 session 管理直接对应。特别是把 context management 当 control problem 而非 truncation 的思路值得借鉴。

7. TRIAD: From Risk Classification to Action Plan Remediation — A Guardrail Feedback Driven Framework for LLM Agents

TRIAD：从风险分类到行动计划修复——护栏反馈驱动的 LLM Agent 框架

🔗 https://arxiv.org/abs/2606.05805

💡 一句话：提出三元决策（proceed/refuse/update）+ 结构化自然语言反馈的 guardrail-agent 闭环：guardrail 不只是 allow/deny，而是输出修复指导让 agent 修改计划保住良性部分。攻击成功率降到 10.42%，安全-效用 tradeoff 最优。

🎯 关联：中高。InternOS 做 agent 编排时必然要处理安全边界。TRIAD 的"不是简单拒绝而是引导修改"的理念，比 binary guardrail 高级一整个维度，适合集成到协调层的 policy enforcement 中。

今天值得深读的： #1（Agent Memory）和 #5（Phase-Scheduled MAS）跟你手头 InternOS 的 memory 管理和调度问题几乎是同一个 problem space，建议优先看。#2（Token Budgets）那个 8 类故障 taxonomy 可以直接拿来做 InternOS 的 failure mode checklist。