Agent & LLM · 2026年7月3日
每日论文速递 · Agent & LLM
💡 一句话:把 agent、prompt、tool、memory、handoff、model 调用抽成统一的 Agent Dependency Graph,用来做 Agent BOM、风险路径分析和治理。
📄 每日论文速递 · Agent & LLM
日期:2026-07-03
1. AgentFlow: Building Agent Dependency Graphs for Static Analysis of Agent Programs
AgentFlow:为 Agent 程序构建依赖图做静态分析
🔗 https://arxiv.org/abs/2607.01640
💡 一句话:把 agent、prompt、tool、memory、handoff、model 调用抽成统一的 Agent Dependency Graph,用来做 Agent BOM、风险路径分析和治理。
🎯 关联:非常高。Anna 做 Agent 平台时,这就是“agent 程序可观测 / 可审计 / 可治理”的底层图模型。
2. When Agents Do Not Stop: Uncovering Infinite Agentic Loops in LLM Agents
当 Agent 停不下来:发现 LLM Agent 中的无限循环
🔗 https://arxiv.org/abs/2607.01641
💡 一句话:提出 IAL-Scan,用静态分析找 agent 项目里可能无限调用模型、工具、handoff 或状态增长的反馈环。
🎯 关联:非常高。InternOS / Agent 平台都需要 execution budget、termination condition、loop guard,这篇直接打中运行时稳定性。
3. Atomic Task Graph: A Unified Framework for Agentic Planning and Execution
Atomic Task Graph:统一 Agent 规划与执行的原子任务图框架
🔗 https://arxiv.org/abs/2607.01942
💡 一句话:把任务拆成显式 DAG,支持并行执行、依赖复用、局部失败修复,而不是每次失败重跑整条链。
🎯 关联:非常高。Anna 的组织协调系统如果要做“任务编排 + 局部修复 + 状态追踪”,这篇值得重点看。
4. A-TMA: Decoupling State-Aware Memory Failures in Long-Term Agent Memory
A-TMA:拆解长期 Agent Memory 中的状态感知失败
🔗 https://arxiv.org/abs/2607.01935
💡 一句话:指出 ghost memory 问题:旧事实、新事实、过渡事实混在 memory bank 里,检索后误导模型;用 current / historical / transition 标签显式区分状态。
🎯 关联:非常高。InternOS 的 memory 不能只是“存下来”,必须有版本、时态、失效和冲突处理机制。
5. Coding Agents Are Guessing: Measuring Action-Boundary Violations in Underspecified DevOps Instructions
代码 Agent 在瞎猜:评估 DevOps 指令不明确时的行动边界违规
🔗 https://arxiv.org/abs/2607.02294
💡 一句话:在 DevOps 场景下测试 Claude Code、Codex、OpenCode,发现指令不明确时 agent 往往不是停下来问,而是直接猜着执行。
🎯 关联:非常高。Agent 平台必须把“clarify before action”和权限边界做成系统层约束,不能赌模型自觉。
6. PACE: A Proxy for Agentic Capability Evaluation
PACE:低成本预测 Agent 能力的代理评测框架
🔗 https://arxiv.org/abs/2607.02032
💡 一句话:用少量 atomic benchmark 预测昂贵 agent benchmark 上的表现,把 Agent 评测成本降到完整评测的 1% 以下。
🎯 关联:高。Anna 如果要做 model routing、agent regression test、版本选择,这种 proxy eval 很实用。
7. SkillFuzz: Fuzzing Skill Composition for Implicit Intents Discovery in Open Skill Marketplaces
SkillFuzz:对 Skill 组合做 Fuzzing,发现开放技能市场中的隐式意图
🔗 https://arxiv.org/abs/2607.02345
💡 一句话:单个 skill 看起来安全,但组合起来可能诱导 agent 做偏离目标的事;这篇把 skill 组合风险变成 fuzzing 问题。
🎯 关联:高。Agent 平台如果支持插件 / skill marketplace,这类“组合安全”比单插件扫描更关键。
8. Adoption and Ecosystem Health: A Longitudinal Analysis of Open-Source Multi-Agent Frameworks
开源多 Agent 框架的采用度与生态健康长期分析
🔗 https://arxiv.org/abs/2607.02453
💡 一句话:分析 15 个开源 agent framework,证明 GitHub stars 很不靠谱,贡献者密度、跨生态贡献和留存率才更能代表真实健康度。
🎯 关联:中高。对 Anna 做技术选型很有用:别被 AutoGPT 式 hype 骗,选框架要看生态结构和长期维护能力。