A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月19日

每日论文速递 · Agent & LLM

💡 一句话:把状态从 prompt 里拆出来单独维护成 ledger,每次工具调用前用 ledger 校验是否违反 domain policy,解决 agent 用过期/错误信息做决策的两大失败模式。

素材齐全。我已经有8篇高度相关的论文,全部在最近一周内提交(2026-06-17 到 2026-06-18)。开始组织最终输出。


📄 每日论文速递 · Agent & LLM

日期:2026-06-19

今天大丰收,cs.MA 一整页几乎都是 LLM agent 相关。挑了 7 篇跟你的 InternOS / Agent 平台方向最直接的:


1. LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

策略遵守型工具调用 Agent 的结构化状态管理

💡 一句话:把"状态"从 prompt 里拆出来单独维护成 ledger,每次工具调用前用 ledger 校验是否违反 domain policy,解决 agent 用过期/错误信息做决策的两大失败模式。

🎯 关联:直接命中。InternOS 里 agent 跨任务、跨轮次维护承诺和上下文的问题,这篇给了一个干净的方案——不靠 prompt 拼接,而是显式 state ledger + policy check。你的 "承诺跟踪机制" 几乎可以照搬这个 ledger 模式。


2. SIGMA: Skill-Incidence Graphs for Compositional Multi-Agent Design

用技能-关联图做组合式多智能体设计

💡 一句话:不再固定 agent 角色,而是把 agent 看作"任务条件下的可复用 skill bundle",用 skill-agent 关联矩阵动态组装 agent 节点,再 decode 通信拓扑;6 个 benchmark 上比 SOTA 拓扑方法平均高 2 分,对未见技能库鲁棒(仅掉 0.96)。EMNLP 2026。

🎯 关联:跟你 7 Kernel 的思路有共鸣——kernel 也是按需组合的能力单元。这篇给了一个形式化的组合层抽象(incidence matrix + skill mailbox 路由),可以借鉴他们怎么处理"skill 到 agent 的动态绑定"。


3. Phoenix: Safe GitHub Issue Resolution via Multi-Agent LLMs

多 Agent 系统安全解决 GitHub Issue

💡 一句话:6 个专职 agent(planner / reproducer / coder / tester / failure analyst / PR)+ 7 层安全控制 + label-based GitHub webhook 状态机,在 SWE-bench Lite 24 实例上 oracle 解决率 75%、零回归。

🎯 关联:典型的"用状态机编排多 agent"的工程范式,跟 InternOS 的调度场景同构。重点看他们的 label-based state machine + baseline-aware test 评估——这是一个比纯 LLM 决策更可靠的协调骨架。


4. A Technical Taxonomy of LLM Agent Communication Protocols

LLM Agent 通信协议技术分类法

💡 一句话:对 9 个活跃开源 agent 通信协议做了 5 轮迭代的 taxonomy 分析,给出维度框架(协议碎片化是 multi-agent 系统的 interoperability 大坑)。

🎯 关联:你做 Agent 平台早晚要面对"agent 之间怎么通信"的协议选型。这篇是一张地图,可以快速判断 A2A / MCP / ACP 这些协议各自定位在哪。强烈建议存档


5. Deontic Policies for Runtime Governance of Agentic AI Systems

用道义逻辑做 Agentic AI 的运行时治理

💡 一句话:传统 authn/authz 不够用——agent 能调工具、改数据、装软件、跨组织协作,需要表达"permission / prohibition / obligation / waiver / 优先级冲突"。用道义逻辑做企业级 governance policy。

🎯 关联:InternOS 跟"组织协调"绑定,本质就是组织级 governance。这篇把 agent 行为约束从"能不能做"升级到"做完了必须通知谁、什么条件下豁免"——你的 sandbox 方案和合规层会用到这个建模思路。


6. Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

多 Agent LLM 系统中评估者偏见的传播网络

💡 一句话:当 LLM 当 evaluator 时,偏见会在 agent 网络里传染。3-agent 实验测出 Cross-Agent Contagion Matrix γ ∈ [0.157, 0.352],同模型 agent 比跨模型 agent 传染弱 3-5 倍。

🎯 关联:用 LLM-as-judge 做多 agent 协调的人都该读一下。InternOS 如果有 agent 互评、互选环节,这是你必须知道的系统性风险——同质化模型反而会放大偏见传播。


7. Heterogeneous LLM Debate Under Adversarial Peers

对抗性同伴下的异构 LLM 辩论:诚实增益、替换成本与韧性

💡 一句话:异构 LLM 辩论是双刃剑——诚实异构同伴显著降低有害修正,对抗性同伴则反向放大。4 个模型家族 × 3 个推理 benchmark 实测。

🎯 关联:跟上一篇配套看。如果你的 agent 平台支持"多模型混合编排"(比如让 Claude + GPT + Qwen 协作),这篇直接告诉你什么时候异构有益、什么时候是灾难——选型不是越多越好。


今日重点推荐:LedgerAgent + Communication Protocols Taxonomy。前者解决 InternOS 状态管理的具体工程问题,后者是 Agent 平台架构的必读参考。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-19 13:08:58
源文件
2026-06-19_13-08-58.md
链接数
7