Agent & LLM · 2026年6月22日

每日论文速递 · Agent & LLM

今日总结：6/18 这批论文质量很高，LedgerAgent / MATM / DynAMO 三篇直接对应你 InternOS 的三个核心模块（状态管理 / 经验复用 / 调度编排），SafeClawBench 是给你朋友的礼物。建议优先读前三篇。

2026-06-22 09:03:176 篇论文条目

arXiv:2606.20529 arXiv:2606.19911 arXiv:2606.19382 arXiv:2606.18356 arXiv:2606.19847 arXiv:2606.20014

完美——DynAMO 完全对口：Plan-then-Execute、topological scheduling、并发依赖管理，正是 InternOS 跨订单调度问题。

我现在素材足够，整理成最终速递。日期是 2026-06-22。

📄 每日论文速递 · Agent & LLM

日期：2026-06-22

1. LedgerAgent: 结构化状态的策略遵守工具调用 Agent

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

🔗 https://arxiv.org/abs/2606.20529

💡 一句话：把任务状态从 prompt 里抽出来单独维护一个 ledger，工具调用前用它检查 policy 约束，从根上解决 "agent 拿了正确事实但用错了" 和 "工具调用语法对但违反业务规则" 两类失败。

🎯 关联：强相关。InternOS 协调系统最大风险就是 agent 在多轮交互里把状态丢了或对不齐——这篇直接给你一个 inference-time 不需要训练就能上的 pattern，特别适合你那种 7 Kernel + tool-calling 的架构。建议精读。

2. Multi-Agent Transactive Memory (MATM)

多 Agent 群体的可交易记忆系统

🔗 https://arxiv.org/abs/2606.19911

💡 一句话：把 RAG 思路从"检索人类写的文档"扩展到"检索其他 agent 跑过的轨迹"——producer agent 把执行轨迹丢进共享仓库，consumer agent 检索复用，新 agent 不再重复发现已有解法。

🎯 关联：强相关。这就是 InternOS 里"组织级 agent 协调"的核心问题——多个 agent 之间怎么沉淀和复用经验。比 shared memory 更轻量（不用 joint training、不用 coordination protocol），可以直接照着设计 trajectory store 这层。

3. DynAMO: 通过拓扑多 Agent 调度做动态资产编排

Dynamic Asset Management Orchestration via Topological Multi-Agent Scheduling

🔗 https://arxiv.org/abs/2606.19382

💡 一句话：Plan-then-Execute 架构生成可验证的 workflow graph，自动识别独立任务做并发，端到端延迟中位数降 1.6x；同时实测发现 LLM 推理占总执行时间 >90%，是真正的瓶颈。

🎯 关联：强相关，几乎是给你写的。跨订单调度那条线你纠结的就是"什么时候能并发、依赖怎么追踪"——他们用 topological 方法做了，并且做了 fault injection 测鲁棒性。那个 "90% 时间花在 LLM 推理" 的数据点你应该记住，影响 InternOS 性能优化方向的判断。

4. SafeClawBench: 在工具调用 Agent 中分离语义、审计证据与沙箱危害

Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents

🔗 https://arxiv.org/abs/2606.18356

💡 一句话：现有 agent 安全评测把"模型同意了攻击"和"真造成了可观察危害"混在一起算 attack success rate，这篇把它们拆成三层（语义接受 / 审计可见证据 / 沙箱观察到的状态改变），12000 行匹配分析里 347 个沙箱危害有 291 个通过了语义检查——说明只看 prompt 拒绝是骗自己。

🎯 关联：强相关，转给你朋友。他做的 AI sandbox 方案，这篇就是给他的评测框架原型。"语义安全 ≠ 实际安全" 这个分层洞察直接能进他的产品定位。数据集已开源。

5. AtomMem: 用原子事实构建简单有效的 LLM Agent 记忆系统

Building Simple and Effective Memory System for LLM Agents via Atomic Facts

🔗 https://arxiv.org/abs/2606.19847

💡 一句话：长对话里抽取"高价值原子事实"作为记忆基本单元，组织成层级事件结构 + 时序画像，检索时激活关联记忆图把碎片串起来；在 LoCoMo benchmark 上 SOTA。

🎯 关联：中等相关。你之前说 memory 就直接存就行别搞复杂——这篇恰好走的就是"简单但稳定"的路子，可以作为你 memory 层的参考实现。原子事实粒度的设计值得借鉴，比 chunk embedding 那套更适合 agent 场景。

6. Hierarchical Control in Multi-Agent Games: LLM-based Planning and RL Execution

多 Agent 游戏中的分层控制：LLM 规划 + RL 执行

🔗 https://arxiv.org/abs/2606.20014

💡 一句话：LLM 做高层规划、RL policy 做低层执行的 hierarchical 架构，用游戏环境验证可行性。

🎯 关联：弱-中相关。游戏场景偏研究向，但 "LLM planner + 专用 executor" 这个分层模式跟你 7 Kernel 里 planner 和 executor 的边界讨论是同一类问题，可以扫一眼架构图作参考，不必精读。

今日总结：6/18 这批论文质量很高，LedgerAgent / MATM / DynAMO 三篇直接对应你 InternOS 的三个核心模块（状态管理 / 经验复用 / 调度编排），SafeClawBench 是给你朋友的礼物。建议优先读前三篇。