Agent & LLM · 2026年6月22日
每日论文速递 · Agent & LLM
今日总结:6/18 这批论文质量很高,LedgerAgent / MATM / DynAMO 三篇直接对应你 InternOS 的三个核心模块(状态管理 / 经验复用 / 调度编排),SafeClawBench 是给你朋友的礼物。建议优先读前三篇。
完美——DynAMO 完全对口:Plan-then-Execute、topological scheduling、并发依赖管理,正是 InternOS 跨订单调度问题。
我现在素材足够,整理成最终速递。日期是 2026-06-22。
📄 每日论文速递 · Agent & LLM
日期:2026-06-22
1. LedgerAgent: 结构化状态的策略遵守工具调用 Agent
LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
🔗 https://arxiv.org/abs/2606.20529
💡 一句话:把任务状态从 prompt 里抽出来单独维护一个 ledger,工具调用前用它检查 policy 约束,从根上解决 "agent 拿了正确事实但用错了" 和 "工具调用语法对但违反业务规则" 两类失败。
🎯 关联:强相关。InternOS 协调系统最大风险就是 agent 在多轮交互里把状态丢了或对不齐——这篇直接给你一个 inference-time 不需要训练就能上的 pattern,特别适合你那种 7 Kernel + tool-calling 的架构。建议精读。
2. Multi-Agent Transactive Memory (MATM)
多 Agent 群体的可交易记忆系统
🔗 https://arxiv.org/abs/2606.19911
💡 一句话:把 RAG 思路从"检索人类写的文档"扩展到"检索其他 agent 跑过的轨迹"——producer agent 把执行轨迹丢进共享仓库,consumer agent 检索复用,新 agent 不再重复发现已有解法。
🎯 关联:强相关。这就是 InternOS 里"组织级 agent 协调"的核心问题——多个 agent 之间怎么沉淀和复用经验。比 shared memory 更轻量(不用 joint training、不用 coordination protocol),可以直接照着设计 trajectory store 这层。
3. DynAMO: 通过拓扑多 Agent 调度做动态资产编排
Dynamic Asset Management Orchestration via Topological Multi-Agent Scheduling
🔗 https://arxiv.org/abs/2606.19382
💡 一句话:Plan-then-Execute 架构生成可验证的 workflow graph,自动识别独立任务做并发,端到端延迟中位数降 1.6x;同时实测发现 LLM 推理占总执行时间 >90%,是真正的瓶颈。
🎯 关联:强相关,几乎是给你写的。跨订单调度那条线你纠结的就是"什么时候能并发、依赖怎么追踪"——他们用 topological 方法做了,并且做了 fault injection 测鲁棒性。那个 "90% 时间花在 LLM 推理" 的数据点你应该记住,影响 InternOS 性能优化方向的判断。
4. SafeClawBench: 在工具调用 Agent 中分离语义、审计证据与沙箱危害
Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents
🔗 https://arxiv.org/abs/2606.18356
💡 一句话:现有 agent 安全评测把"模型同意了攻击"和"真造成了可观察危害"混在一起算 attack success rate,这篇把它们拆成三层(语义接受 / 审计可见证据 / 沙箱观察到的状态改变),12000 行匹配分析里 347 个沙箱危害有 291 个通过了语义检查——说明只看 prompt 拒绝是骗自己。
🎯 关联:强相关,转给你朋友。他做的 AI sandbox 方案,这篇就是给他的评测框架原型。"语义安全 ≠ 实际安全" 这个分层洞察直接能进他的产品定位。数据集已开源。
5. AtomMem: 用原子事实构建简单有效的 LLM Agent 记忆系统
Building Simple and Effective Memory System for LLM Agents via Atomic Facts
🔗 https://arxiv.org/abs/2606.19847
💡 一句话:长对话里抽取"高价值原子事实"作为记忆基本单元,组织成层级事件结构 + 时序画像,检索时激活关联记忆图把碎片串起来;在 LoCoMo benchmark 上 SOTA。
🎯 关联:中等相关。你之前说 memory 就直接存就行别搞复杂——这篇恰好走的就是"简单但稳定"的路子,可以作为你 memory 层的参考实现。原子事实粒度的设计值得借鉴,比 chunk embedding 那套更适合 agent 场景。
6. Hierarchical Control in Multi-Agent Games: LLM-based Planning and RL Execution
多 Agent 游戏中的分层控制:LLM 规划 + RL 执行
🔗 https://arxiv.org/abs/2606.20014
💡 一句话:LLM 做高层规划、RL policy 做低层执行的 hierarchical 架构,用游戏环境验证可行性。
🎯 关联:弱-中相关。游戏场景偏研究向,但 "LLM planner + 专用 executor" 这个分层模式跟你 7 Kernel 里 planner 和 executor 的边界讨论是同一类问题,可以扫一眼架构图作参考,不必精读。
今日总结:6/18 这批论文质量很高,LedgerAgent / MATM / DynAMO 三篇直接对应你 InternOS 的三个核心模块(状态管理 / 经验复用 / 调度编排),SafeClawBench 是给你朋友的礼物。建议优先读前三篇。