Agent & LLM · 2026年7月3日

每日论文速递 · Agent & LLM

💡 一句话：把 agent、prompt、tool、memory、handoff、model 调用抽成统一的 Agent Dependency Graph，用来做 Agent BOM、风险路径分析和治理。

2026-07-03 09:03:218 篇论文条目

📄 每日论文速递 · Agent & LLM

日期：2026-07-03

1. AgentFlow: Building Agent Dependency Graphs for Static Analysis of Agent Programs

AgentFlow：为 Agent 程序构建依赖图做静态分析

🔗 https://arxiv.org/abs/2607.01640

💡 一句话：把 agent、prompt、tool、memory、handoff、model 调用抽成统一的 Agent Dependency Graph，用来做 Agent BOM、风险路径分析和治理。

🎯 关联：非常高。Anna 做 Agent 平台时，这就是“agent 程序可观测 / 可审计 / 可治理”的底层图模型。

2. When Agents Do Not Stop: Uncovering Infinite Agentic Loops in LLM Agents

当 Agent 停不下来：发现 LLM Agent 中的无限循环

🔗 https://arxiv.org/abs/2607.01641

💡 一句话：提出 IAL-Scan，用静态分析找 agent 项目里可能无限调用模型、工具、handoff 或状态增长的反馈环。

🎯 关联：非常高。InternOS / Agent 平台都需要 execution budget、termination condition、loop guard，这篇直接打中运行时稳定性。

3. Atomic Task Graph: A Unified Framework for Agentic Planning and Execution

Atomic Task Graph：统一 Agent 规划与执行的原子任务图框架

🔗 https://arxiv.org/abs/2607.01942

💡 一句话：把任务拆成显式 DAG，支持并行执行、依赖复用、局部失败修复，而不是每次失败重跑整条链。

🎯 关联：非常高。Anna 的组织协调系统如果要做“任务编排 + 局部修复 + 状态追踪”，这篇值得重点看。

4. A-TMA: Decoupling State-Aware Memory Failures in Long-Term Agent Memory

A-TMA：拆解长期 Agent Memory 中的状态感知失败

🔗 https://arxiv.org/abs/2607.01935

💡 一句话：指出 ghost memory 问题：旧事实、新事实、过渡事实混在 memory bank 里，检索后误导模型；用 current / historical / transition 标签显式区分状态。

🎯 关联：非常高。InternOS 的 memory 不能只是“存下来”，必须有版本、时态、失效和冲突处理机制。

5. Coding Agents Are Guessing: Measuring Action-Boundary Violations in Underspecified DevOps Instructions

代码 Agent 在瞎猜：评估 DevOps 指令不明确时的行动边界违规

🔗 https://arxiv.org/abs/2607.02294

💡 一句话：在 DevOps 场景下测试 Claude Code、Codex、OpenCode，发现指令不明确时 agent 往往不是停下来问，而是直接猜着执行。

🎯 关联：非常高。Agent 平台必须把“clarify before action”和权限边界做成系统层约束，不能赌模型自觉。

6. PACE: A Proxy for Agentic Capability Evaluation

PACE：低成本预测 Agent 能力的代理评测框架

🔗 https://arxiv.org/abs/2607.02032

💡 一句话：用少量 atomic benchmark 预测昂贵 agent benchmark 上的表现，把 Agent 评测成本降到完整评测的 1% 以下。

🎯 关联：高。Anna 如果要做 model routing、agent regression test、版本选择，这种 proxy eval 很实用。

7. SkillFuzz: Fuzzing Skill Composition for Implicit Intents Discovery in Open Skill Marketplaces

SkillFuzz：对 Skill 组合做 Fuzzing，发现开放技能市场中的隐式意图

🔗 https://arxiv.org/abs/2607.02345

💡 一句话：单个 skill 看起来安全，但组合起来可能诱导 agent 做偏离目标的事；这篇把 skill 组合风险变成 fuzzing 问题。

🎯 关联：高。Agent 平台如果支持插件 / skill marketplace，这类“组合安全”比单插件扫描更关键。

8. Adoption and Ecosystem Health: A Longitudinal Analysis of Open-Source Multi-Agent Frameworks

开源多 Agent 框架的采用度与生态健康长期分析

🔗 https://arxiv.org/abs/2607.02453

💡 一句话：分析 15 个开源 agent framework，证明 GitHub stars 很不靠谱，贡献者密度、跨生态贡献和留存率才更能代表真实健康度。

🎯 关联：中高。对 Anna 做技术选型很有用：别被 AutoGPT 式 hype 骗，选框架要看生态结构和长期维护能力。