Agent & LLM · 2026年6月19日

每日论文速递 · Agent & LLM

💡 一句话：把状态从 prompt 里拆出来单独维护成 ledger，每次工具调用前用 ledger 校验是否违反 domain policy，解决 agent 用过期/错误信息做决策的两大失败模式。

2026-06-19 13:08:587 篇论文条目

arXiv:2606.20529 arXiv:2606.19758 arXiv:2606.20243 arXiv:2606.19135 arXiv:2606.19464 arXiv:2606.20493 arXiv:2606.19826

素材齐全。我已经有8篇高度相关的论文，全部在最近一周内提交（2026-06-17 到 2026-06-18）。开始组织最终输出。

📄 每日论文速递 · Agent & LLM

日期：2026-06-19

今天大丰收，cs.MA 一整页几乎都是 LLM agent 相关。挑了 7 篇跟你的 InternOS / Agent 平台方向最直接的：

1. LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

策略遵守型工具调用 Agent 的结构化状态管理

🔗 https://arxiv.org/abs/2606.20529

💡 一句话：把"状态"从 prompt 里拆出来单独维护成 ledger，每次工具调用前用 ledger 校验是否违反 domain policy，解决 agent 用过期/错误信息做决策的两大失败模式。

🎯 关联：直接命中。InternOS 里 agent 跨任务、跨轮次维护承诺和上下文的问题，这篇给了一个干净的方案——不靠 prompt 拼接，而是显式 state ledger + policy check。你的 "承诺跟踪机制" 几乎可以照搬这个 ledger 模式。

2. SIGMA: Skill-Incidence Graphs for Compositional Multi-Agent Design

用技能-关联图做组合式多智能体设计

🔗 https://arxiv.org/abs/2606.19758

💡 一句话：不再固定 agent 角色，而是把 agent 看作"任务条件下的可复用 skill bundle"，用 skill-agent 关联矩阵动态组装 agent 节点，再 decode 通信拓扑；6 个 benchmark 上比 SOTA 拓扑方法平均高 2 分，对未见技能库鲁棒（仅掉 0.96）。EMNLP 2026。

🎯 关联：跟你 7 Kernel 的思路有共鸣——kernel 也是按需组合的能力单元。这篇给了一个形式化的组合层抽象（incidence matrix + skill mailbox 路由），可以借鉴他们怎么处理"skill 到 agent 的动态绑定"。

3. Phoenix: Safe GitHub Issue Resolution via Multi-Agent LLMs

多 Agent 系统安全解决 GitHub Issue

🔗 https://arxiv.org/abs/2606.20243

💡 一句话：6 个专职 agent（planner / reproducer / coder / tester / failure analyst / PR）+ 7 层安全控制 + label-based GitHub webhook 状态机，在 SWE-bench Lite 24 实例上 oracle 解决率 75%、零回归。

🎯 关联：典型的"用状态机编排多 agent"的工程范式，跟 InternOS 的调度场景同构。重点看他们的 label-based state machine + baseline-aware test 评估——这是一个比纯 LLM 决策更可靠的协调骨架。

4. A Technical Taxonomy of LLM Agent Communication Protocols

LLM Agent 通信协议技术分类法

🔗 https://arxiv.org/abs/2606.19135

💡 一句话：对 9 个活跃开源 agent 通信协议做了 5 轮迭代的 taxonomy 分析，给出维度框架（协议碎片化是 multi-agent 系统的 interoperability 大坑）。

🎯 关联：你做 Agent 平台早晚要面对"agent 之间怎么通信"的协议选型。这篇是一张地图，可以快速判断 A2A / MCP / ACP 这些协议各自定位在哪。强烈建议存档。

5. Deontic Policies for Runtime Governance of Agentic AI Systems

用道义逻辑做 Agentic AI 的运行时治理

🔗 https://arxiv.org/abs/2606.19464

💡 一句话：传统 authn/authz 不够用——agent 能调工具、改数据、装软件、跨组织协作，需要表达"permission / prohibition / obligation / waiver / 优先级冲突"。用道义逻辑做企业级 governance policy。

🎯 关联：InternOS 跟"组织协调"绑定，本质就是组织级 governance。这篇把 agent 行为约束从"能不能做"升级到"做完了必须通知谁、什么条件下豁免"——你的 sandbox 方案和合规层会用到这个建模思路。

6. Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

多 Agent LLM 系统中评估者偏见的传播网络

🔗 https://arxiv.org/abs/2606.20493

💡 一句话：当 LLM 当 evaluator 时，偏见会在 agent 网络里传染。3-agent 实验测出 Cross-Agent Contagion Matrix γ ∈ [0.157, 0.352]，同模型 agent 比跨模型 agent 传染弱 3-5 倍。

🎯 关联：用 LLM-as-judge 做多 agent 协调的人都该读一下。InternOS 如果有 agent 互评、互选环节，这是你必须知道的系统性风险——同质化模型反而会放大偏见传播。

7. Heterogeneous LLM Debate Under Adversarial Peers

对抗性同伴下的异构 LLM 辩论：诚实增益、替换成本与韧性

🔗 https://arxiv.org/abs/2606.19826

💡 一句话：异构 LLM 辩论是双刃剑——诚实异构同伴显著降低有害修正，对抗性同伴则反向放大。4 个模型家族 × 3 个推理 benchmark 实测。

🎯 关联：跟上一篇配套看。如果你的 agent 平台支持"多模型混合编排"（比如让 Claude + GPT + Qwen 协作），这篇直接告诉你什么时候异构有益、什么时候是灾难——选型不是越多越好。

今日重点推荐：LedgerAgent + Communication Protocols Taxonomy。前者解决 InternOS 状态管理的具体工程问题，后者是 Agent 平台架构的必读参考。