A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年7月3日

每日论文速递 · Agent & LLM

💡 一句话:把 agent、prompt、tool、memory、handoff、model 调用抽成统一的 Agent Dependency Graph,用来做 Agent BOM、风险路径分析和治理。

📄 每日论文速递 · Agent & LLM

日期:2026-07-03


1. AgentFlow: Building Agent Dependency Graphs for Static Analysis of Agent Programs

AgentFlow:为 Agent 程序构建依赖图做静态分析

💡 一句话:把 agent、prompt、tool、memory、handoff、model 调用抽成统一的 Agent Dependency Graph,用来做 Agent BOM、风险路径分析和治理。

🎯 关联:非常高。Anna 做 Agent 平台时,这就是“agent 程序可观测 / 可审计 / 可治理”的底层图模型。


2. When Agents Do Not Stop: Uncovering Infinite Agentic Loops in LLM Agents

当 Agent 停不下来:发现 LLM Agent 中的无限循环

💡 一句话:提出 IAL-Scan,用静态分析找 agent 项目里可能无限调用模型、工具、handoff 或状态增长的反馈环。

🎯 关联:非常高。InternOS / Agent 平台都需要 execution budget、termination condition、loop guard,这篇直接打中运行时稳定性。


3. Atomic Task Graph: A Unified Framework for Agentic Planning and Execution

Atomic Task Graph:统一 Agent 规划与执行的原子任务图框架

💡 一句话:把任务拆成显式 DAG,支持并行执行、依赖复用、局部失败修复,而不是每次失败重跑整条链。

🎯 关联:非常高。Anna 的组织协调系统如果要做“任务编排 + 局部修复 + 状态追踪”,这篇值得重点看。


4. A-TMA: Decoupling State-Aware Memory Failures in Long-Term Agent Memory

A-TMA:拆解长期 Agent Memory 中的状态感知失败

💡 一句话:指出 ghost memory 问题:旧事实、新事实、过渡事实混在 memory bank 里,检索后误导模型;用 current / historical / transition 标签显式区分状态。

🎯 关联:非常高。InternOS 的 memory 不能只是“存下来”,必须有版本、时态、失效和冲突处理机制。


5. Coding Agents Are Guessing: Measuring Action-Boundary Violations in Underspecified DevOps Instructions

代码 Agent 在瞎猜:评估 DevOps 指令不明确时的行动边界违规

💡 一句话:在 DevOps 场景下测试 Claude Code、Codex、OpenCode,发现指令不明确时 agent 往往不是停下来问,而是直接猜着执行。

🎯 关联:非常高。Agent 平台必须把“clarify before action”和权限边界做成系统层约束,不能赌模型自觉。


6. PACE: A Proxy for Agentic Capability Evaluation

PACE:低成本预测 Agent 能力的代理评测框架

💡 一句话:用少量 atomic benchmark 预测昂贵 agent benchmark 上的表现,把 Agent 评测成本降到完整评测的 1% 以下。

🎯 关联:高。Anna 如果要做 model routing、agent regression test、版本选择,这种 proxy eval 很实用。


7. SkillFuzz: Fuzzing Skill Composition for Implicit Intents Discovery in Open Skill Marketplaces

SkillFuzz:对 Skill 组合做 Fuzzing,发现开放技能市场中的隐式意图

💡 一句话:单个 skill 看起来安全,但组合起来可能诱导 agent 做偏离目标的事;这篇把 skill 组合风险变成 fuzzing 问题。

🎯 关联:高。Agent 平台如果支持插件 / skill marketplace,这类“组合安全”比单插件扫描更关键。


8. Adoption and Ecosystem Health: A Longitudinal Analysis of Open-Source Multi-Agent Frameworks

开源多 Agent 框架的采用度与生态健康长期分析

💡 一句话:分析 15 个开源 agent framework,证明 GitHub stars 很不靠谱,贡献者密度、跨生态贡献和留存率才更能代表真实健康度。

🎯 关联:中高。对 Anna 做技术选型很有用:别被 AutoGPT 式 hype 骗,选框架要看生态结构和长期维护能力。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-07-03 09:03:21
源文件
2026-07-03_09-03-21.md
链接数
8