Agent & LLM · 2026年6月5日

每日论文速递 · Agent & LLM

💡 一句话：第一篇对 Agent Memory 做系统级 profiling 的论文——把十种记忆系统拆成 construction/retrieval/generation 三个阶段做成本归因，给出了 10 条工程建议（调度策略、freshness-latency 权衡、fleet 管理等）。

2026-06-05 09:04:357 篇论文条目

arXiv:2606.06448 arXiv:2606.06324 arXiv:2606.05806 arXiv:2606.05805 arXiv:2606.06453 arXiv:2606.05390 arXiv:2606.06447

I now have all the papers I need. I have 7 highly relevant, all submitted within the last 2 days (June 3-5, 2026). Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期：2026-06-05

1. Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads

Agent 记忆：有状态长时程工作负载的系统级特性分析

🔗 https://arxiv.org/abs/2606.06448

🎯 关联：极高。Anna 在做 InternOS 的 memory 机制设计，这篇的四轴分类法（flat retrieval → LLM-mediated extraction → consolidating fact store → agentic control flow）和成本模型直接可以用来评估你的 memory 架构选型。

2. HarnessFix: From Failed Trajectories to Reliable LLM Agents — Diagnosing and Repairing Harness Flaws

从失败轨迹到可靠 LLM Agent：诊断与修复 Harness 缺陷

🔗 https://arxiv.org/abs/2606.06324

💡 一句话：提出 Harness-aware Trace Intermediate Representation (HTIR)，把 Agent 执行失败归因到具体的 harness 层（执行环境、工具接口、上下文、生命周期编排、可观测性、验证、治理 — ETCLOVG 七层），然后自动生成修复补丁。在 SWE-Bench 上提升 15-50%。

🎯 关联：极高。这篇的 ETCLOVG 七层 harness 分类和 InternOS 的 7 Kernel 思路异曲同工。trace-guided 故障诊断的思路对你设计 Agent 平台的 observability 和自愈机制有直接参考价值。

3. ToolMaze: When Tools Fail — Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

工具失败时：LLM Agent 动态重规划与异常恢复基准测试

🔗 https://arxiv.org/abs/2606.05806

💡 一句话：造了一个 benchmark 专门测 Agent 在工具调用失败时能不能重新规划。核心发现：Agent 对工具输出的"盲目信任"是最大问题，implicit semantic failure 下恢复率暴跌 37%，而且这个能力随模型 scale 的提升速度比基础任务慢 3.66 倍。

🎯 关联：高。做 Agent 平台绕不开工具失败的容错设计。这篇的 2×2 扰动分类（explicit/implicit × transient/permanent）可以直接用来设计你 Agent 系统的异常处理策略。

4. TRIAD: A Guardrail Feedback Driven Framework for LLM Agents

TRIAD：基于 Guardrail 反馈驱动的 LLM Agent 安全框架

🔗 https://arxiv.org/abs/2606.05805

💡 一句话：不再粗暴地 allow/deny Agent 行为，而是引入三态决策（proceed/refuse/update）+ 结构化自然语言反馈，让 guardrail 和 Agent planning 形成闭环。攻击成功率降到 10.42%，同时保住了任务完成度。

🎯 关联：高。Agent 平台的安全层设计参考。"update" 这个中间态比简单的黑白判断实用得多，跟 InternOS 需要的"柔性协调"理念一致。

5. Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents

Vortex：面向 AI Agent 的高效可编程稀疏注意力推理系统

🔗 https://arxiv.org/abs/2606.06453

💡 一句话：用 Python DSL + page-centric tensor 抽象来快速原型化/部署稀疏注意力算法，让 AI Agent 自动搜索最优 attention pattern。在 B200 GPU 上最高 4.7× throughput 提升。

🎯 关联：中高。如果 Agent 平台要跑长上下文任务，sparse attention 的 serving 优化是基础设施层的事。这篇的"让 Agent 自己搜索 attention 算法"的思路也很有意思——用 AI 优化 AI 推理本身。

6. Ahoy: LLMs Enacting Multiagent Interaction Protocols

Ahoy：LLM 执行多智能体交互协议

🔗 https://arxiv.org/abs/2606.05390

💡 一句话：让 LLM Agent 动态选择并执行声明式协议来完成多 Agent 交互——不需要专门训练，也不需要写特定代码，多个协议可以并发执行。

🎯 关联：高。这跟 InternOS 的组织协调系统直接相关——用声明式协议而不是硬编码来定义 Agent 间的交互规则，是一个很干净的架构思路。

7. NF-CoT: Latent Reasoning with Normalizing Flows

NF-CoT：用 Normalizing Flows 实现隐式推理

🔗 https://arxiv.org/abs/2606.06447

💡 一句话：不让 LLM 把每步推理都"说出来"（传统 CoT），而是在连续隐空间中做推理，用 normalizing flow 建模"连续思维"。保持了 KV-cache 兼容和 left-to-right 生成，代码生成任务上超过显式 CoT，同时大幅减少推理 token 开销。

🎯 关联：中。偏底层模型研究，但对 Agent 平台有间接影响——如果隐式推理能减少 token 开销同时不掉精度，意味着 Agent 的推理成本可以显著降低。

今日亮点总结：今天的论文质量很高，集中在 Agent 系统工程层面——memory profiling、harness 修复、工具容错、安全 guardrail 闭环。特别是 #1 Agent Memory 和 #2 HarnessFix 两篇，直接对标你在做的 Agent 平台架构设计，建议优先看。