A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月5日

每日论文速递 · Agent & LLM

💡 一句话:第一篇对 Agent Memory 做系统级 profiling 的论文——把十种记忆系统拆成 construction/retrieval/generation 三个阶段做成本归因,给出了 10 条工程建议(调度策略、freshness-latency 权衡、fleet 管理等)。

I now have all the papers I need. I have 7 highly relevant, all submitted within the last 2 days (June 3-5, 2026). Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期:2026-06-05


1. Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads

Agent 记忆:有状态长时程工作负载的系统级特性分析

💡 一句话:第一篇对 Agent Memory 做系统级 profiling 的论文——把十种记忆系统拆成 construction/retrieval/generation 三个阶段做成本归因,给出了 10 条工程建议(调度策略、freshness-latency 权衡、fleet 管理等)。

🎯 关联:极高。Anna 在做 InternOS 的 memory 机制设计,这篇的四轴分类法(flat retrieval → LLM-mediated extraction → consolidating fact store → agentic control flow)和成本模型直接可以用来评估你的 memory 架构选型。


2. HarnessFix: From Failed Trajectories to Reliable LLM Agents — Diagnosing and Repairing Harness Flaws

从失败轨迹到可靠 LLM Agent:诊断与修复 Harness 缺陷

💡 一句话:提出 Harness-aware Trace Intermediate Representation (HTIR),把 Agent 执行失败归因到具体的 harness 层(执行环境、工具接口、上下文、生命周期编排、可观测性、验证、治理 — ETCLOVG 七层),然后自动生成修复补丁。在 SWE-Bench 上提升 15-50%。

🎯 关联:极高。这篇的 ETCLOVG 七层 harness 分类和 InternOS 的 7 Kernel 思路异曲同工。trace-guided 故障诊断的思路对你设计 Agent 平台的 observability 和自愈机制有直接参考价值。


3. ToolMaze: When Tools Fail — Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

工具失败时:LLM Agent 动态重规划与异常恢复基准测试

💡 一句话:造了一个 benchmark 专门测 Agent 在工具调用失败时能不能重新规划。核心发现:Agent 对工具输出的"盲目信任"是最大问题,implicit semantic failure 下恢复率暴跌 37%,而且这个能力随模型 scale 的提升速度比基础任务慢 3.66 倍。

🎯 关联:。做 Agent 平台绕不开工具失败的容错设计。这篇的 2×2 扰动分类(explicit/implicit × transient/permanent)可以直接用来设计你 Agent 系统的异常处理策略。


4. TRIAD: A Guardrail Feedback Driven Framework for LLM Agents

TRIAD:基于 Guardrail 反馈驱动的 LLM Agent 安全框架

💡 一句话:不再粗暴地 allow/deny Agent 行为,而是引入三态决策(proceed/refuse/update)+ 结构化自然语言反馈,让 guardrail 和 Agent planning 形成闭环。攻击成功率降到 10.42%,同时保住了任务完成度。

🎯 关联:。Agent 平台的安全层设计参考。"update" 这个中间态比简单的黑白判断实用得多,跟 InternOS 需要的"柔性协调"理念一致。


5. Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents

Vortex:面向 AI Agent 的高效可编程稀疏注意力推理系统

💡 一句话:用 Python DSL + page-centric tensor 抽象来快速原型化/部署稀疏注意力算法,让 AI Agent 自动搜索最优 attention pattern。在 B200 GPU 上最高 4.7× throughput 提升。

🎯 关联:中高。如果 Agent 平台要跑长上下文任务,sparse attention 的 serving 优化是基础设施层的事。这篇的"让 Agent 自己搜索 attention 算法"的思路也很有意思——用 AI 优化 AI 推理本身。


6. Ahoy: LLMs Enacting Multiagent Interaction Protocols

Ahoy:LLM 执行多智能体交互协议

💡 一句话:让 LLM Agent 动态选择并执行声明式协议来完成多 Agent 交互——不需要专门训练,也不需要写特定代码,多个协议可以并发执行。

🎯 关联:。这跟 InternOS 的组织协调系统直接相关——用声明式协议而不是硬编码来定义 Agent 间的交互规则,是一个很干净的架构思路。


7. NF-CoT: Latent Reasoning with Normalizing Flows

NF-CoT:用 Normalizing Flows 实现隐式推理

💡 一句话:不让 LLM 把每步推理都"说出来"(传统 CoT),而是在连续隐空间中做推理,用 normalizing flow 建模"连续思维"。保持了 KV-cache 兼容和 left-to-right 生成,代码生成任务上超过显式 CoT,同时大幅减少推理 token 开销。

🎯 关联:。偏底层模型研究,但对 Agent 平台有间接影响——如果隐式推理能减少 token 开销同时不掉精度,意味着 Agent 的推理成本可以显著降低。


今日亮点总结:今天的论文质量很高,集中在 Agent 系统工程层面——memory profiling、harness 修复、工具容错、安全 guardrail 闭环。特别是 #1 Agent Memory 和 #2 HarnessFix 两篇,直接对标你在做的 Agent 平台架构设计,建议优先看。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-05 09:04:35
源文件
2026-06-05_09-04-35.md
链接数
7