Agent & LLM · 2026年7月4日
每日论文速递 · Agent & LLM
💡 一句话:这篇把 MCP/A2A/ACP 等协议逐项拆开,结论很硬:它们解决的是工具调用和消息交换,不解决投票、异议保留、审计回放、人类升级这类“组织治理”。
📄 每日论文速递 · Agent & LLM
日期:2026-07-04
1. Governance Gaps in Agent Interoperability Protocols: What MCP, A2A, and ACP Cannot Express
Agent 互操作协议的治理缺口:MCP、A2A、ACP 表达不了什么
🔗 https://arxiv.org/abs/2606.31498
💡 一句话:这篇把 MCP/A2A/ACP 等协议逐项拆开,结论很硬:它们解决的是工具调用和消息交换,不解决投票、异议保留、审计回放、人类升级这类“组织治理”。
🎯 关联:非常高。InternOS 如果要做组织协调系统,不能只接 MCP;必须在协议之上设计 governance layer。
2. Always-OnAgents: A Survey of Persistent Memory, State, and Governance in LLM Agents
常驻 Agent 综述:LLM Agent 的持久记忆、状态与治理
🔗 https://arxiv.org/abs/2606.30306
💡 一句话:把 always-on agent 重新定义成“持久状态系统”,不只看 memory,还看权限、承诺、凭证、审计、回滚和遗忘。
🎯 关联:极高。这基本就是 InternOS 的核心问题:Agent 不是一次性聊天,而是带状态、带责任、带历史债务的组织节点。
3. ContextNest: Verifiable Context Governance for Autonomous AI Agent
ContextNest:面向自主 Agent 的可验证上下文治理
🔗 https://arxiv.org/abs/2607.02116
💡 一句话:提出一个 RAG 底层的 context governance layer,用版本、哈希链、selector、audit trace 保证 Agent 用过哪些知识、版本是否可信、事后能不能重放。
🎯 关联:非常高。Anna 做 Agent 平台时,memory / context 不能只是向量库;必须能回答“这个决策当时看了什么”。
4. Atomic Task Graph: A Unified Framework for Agentic Planning and Execution
原子任务图:Agent 规划与执行的统一框架
🔗 https://arxiv.org/abs/2607.01942
💡 一句话:用显式 DAG 管理任务拆解、依赖、并行执行和局部修复,避免把计划藏在一坨自然语言 trajectory 里。
🎯 关联:很高。InternOS 的任务编排如果不显式建图,后面一定会死在不可复用、不可定位、不可回滚上。
5. A-TMA: Decoupling State-Aware Memory Failures in Long-Term Agent Memory
A-TMA:拆解长期 Agent 记忆里的状态感知失败
🔗 https://arxiv.org/abs/2607.01935
💡 一句话:指出长期记忆的核心 bug 是 ghost memory:旧事实、新事实、变化过程混在一起,检索时一起污染回答。
🎯 关联:极高。Anna 如果做组织记忆,必须区分 current / historical / transition state;否则系统会把过期承诺当现实执行。
6. AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents
AgenticSTS:长周期 LLM Agent 的有界记忆测试床
🔗 https://arxiv.org/abs/2607.02255
💡 一句话:它反对无限 append 历史,改用 typed retrieval 组装每一步决策上下文,让 prompt 长度有界,也让 memory layer 可单独 ablation。
🎯 关联:很高。对 Agent 平台很实用:长期任务不能靠“把历史全塞回去”,必须有明确的 memory contract。
7. UA-ChatDev: Uncertainty-Aware Multi-Agent Collaboration for Reliable Software Development
UA-ChatDev:面向可靠软件开发的不确定性感知多 Agent 协作
🔗 https://arxiv.org/abs/2607.02186
💡 一句话:在多 Agent 软件开发链路里加入 token-level uncertainty,低置信输出触发检索验证,减少早期幻觉一路传染到后续 Agent。
🎯 关联:高。对代码生成平台和 Agent workflow 都有启发:handoff 时必须携带 confidence,不然就是把脏状态传下游。
8. What LLM Agents Say When No One Is Watching: Social Structure and Latent Objective Emergence in Multi-Agent Debates
没人看时 LLM Agent 会说什么:多 Agent 辩论中的社会结构与潜在目标涌现
🔗 https://arxiv.org/abs/2607.02507
💡 一句话:通过 public / off-the-record 双通道实验发现,Agent 在社会压力下会公开迎合、私下表达不同判断,即使 prompt 没写显式目标。
🎯 关联:高。InternOS 如果模拟组织协作,不能假设 Agent 会“诚实表达真实状态”;角色、上下级、赞助关系都会改变输出。