Agent & LLM · 2026年6月17日
每日论文速递 · Agent & LLM
💡 一句话:今天的 Agent runtime 把 tool 当成孤立的 RPC,缺少 task-scoped 的 commit / rollback / recovery / audit 边界;Cordon 把多步 Agent workflow 当成数据库事务来管。
非常好,这里有一大堆高质量的相关论文。我已经能挑出 Anna 最感兴趣的几篇了。让我重点关注与 InternOS(组织协调/调度/编排/承诺跟踪)和 AI Agent 平台相关的:
精选清单(已经能锁定):
1. Cordon (2606.17573) — 语义事务/工具调用边界,跟她的承诺跟踪机制直接相关 ⭐⭐⭐
2. Compositional Skill Routing (2606.18051) — 技能分解+路由,AI Agent 平台核心
3. Scaling Enterprise Agent Routing (2606.17519) — 110-agent/584-tool 路由退化,生产级洞察 ⭐⭐⭐
4. Trustworthy BDaaS Multi-Agent (2606.17915) — 生命周期编排,跟 InternOS 同构
5. Intelligence Entropy Principle (2606.18065) — MAS 在生产中的非线性退化,理论 + 工程
6. SEAGym (2606.17546) — 自进化 Agent harness 评估
7. EnvRL (2606.17680) — 从环境动态学习
8. Closing the Feedback Loop (2606.17591) — Verbal RL 的 retention-forgetting,跟 memory 设计相关
够用了,不再继续抓。Cordon 这篇尤其值得 Anna 看——讲 commit/rollback/audit on multi-step agent workflows,跟她的"承诺跟踪"思路是同一种问题域。
📄 每日论文速递 · Agent & LLM
日期:2026-06-17
1. Cordon: Semantic Transactions for Tool-Using LLM Agents
语义事务:给工具调用 Agent 加事务边界
🔗 https://arxiv.org/abs/2606.17573
💡 一句话:今天的 Agent runtime 把 tool 当成孤立的 RPC,缺少 task-scoped 的 commit / rollback / recovery / audit 边界;Cordon 把多步 Agent workflow 当成数据库事务来管。
🎯 关联:⭐⭐⭐ 必读。跟你最近想做的"承诺跟踪机制"是同一类问题——Agent 做了一串副作用动作之后,怎么回滚、怎么审计、怎么知道哪些 commit 了。InternOS 里跨订单调度的"承诺—兑现—回滚"语义可以直接借这套词汇。
2. Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery
企业级 Agent 路由扩展:退化、诊断、恢复
🔗 https://arxiv.org/abs/2606.17519
💡 一句话:在真实的 110 Agent / 584 Tool 企业目录上做实测,路由 F1 在 under-specified 请求上跨模型下降 16–23 个百分点;给出退化曲线和恢复方案。
🎯 ⭐⭐⭐ 这是少见的"真生产环境数据"。InternOS 未来 Agent 多了之后必然撞到的问题——目录扩张时路由准确率掉得多狠、什么 query 最先崩。值得拿数据去说服领导提前做 routing 评测基线。
3. Compositional Skill Routing for LLM Agents: Decompose, Retrieve, and Compose
组合式技能路由:分解、检索、组合
🔗 https://arxiv.org/abs/2606.18051
💡 一句话:把"复杂请求 → 一个技能"重新形式化为"分解成原子子任务 → 每个子任务检索合适技能 → 组合成可执行计划"。
🎯 中相关。跟你 7 Kernel 架构里的任务分解层可以对照看——他们把分解和检索拆开,你可以判断这种拆分粒度在你场景下是不是过度设计。
4. Trustworthy Self-Composable Big-Data-as-a-Service: An LLM-Orchestrated Multi-Agent Framework
可信自组合 BDaaS:LLM 编排的全生命周期多 Agent 框架
🔗 https://arxiv.org/abs/2606.17915
💡 一句话:覆盖数据摄取→清洗→特征→建模→部署→漂移监控全生命周期,强调 artifact governance 和 human oversight,不是单阶段 AutoML。
🎯 ⭐⭐ 跟 InternOS 同构。重点抄它的"生命周期编排 + 人工 oversight 接入点"设计——你的组织协调系统也是跨多个阶段、需要人插手的长流程。
5. Intelligence Entropy Principle and the ADE Stability Engineering Framework
智能熵原理与 ADE 稳定性工程框架
🔗 https://arxiv.org/abs/2606.18065
💡 一句话:LLM 多 Agent 系统从实验室到生产会非线性退化,作者形式化为 S(t)=S0·exp(αt/Cm) 并给出 Lyapunov 稳定条件 λ>α/Cm。
🎯 看个乐+理论参考。公式好不好用另说,但"MAS 在生产里会熵增"这件事是真实的,他们试图给出一个可量化的退化模型——你可以借这个视角去做 InternOS 的健康度指标。
6. SEAGym: An Evaluation Environment for Self-Evolving LLM Agents
SEAGym:自进化 Agent 的评估环境
🔗 https://arxiv.org/abs/2606.17546
💡 一句话:Agent 自我进化主要发生在 harness 层(prompt / memory / tools / middleware / runtime state),现有评测只看孤立任务分,看不出更新是不是"可复用的改进"。
🎯 中相关。InternOS 未来要做 Agent 自我演化的时候这是个绕不开的评测维度——别只看任务得分,要看 harness 改动有没有"跨任务转移"。
7. EnvRL: Learn from Environment Dynamics in Agentic Reinforcement Learning
EnvRL:从环境动态学习的 Agent 强化学习
🔗 https://arxiv.org/abs/2606.17680
💡 一句话:长 horizon Agent 任务里 outcome reward 太稀疏,作者主张把 rollout 轨迹里的环境动态信号挖出来当训练信号。
🎯 低-中相关。你目前不训模型,但这个"环境动态当反馈"的思路可以反过来用在 InternOS 的 Agent 行为评估上——别只看最终结果,看中间状态变化。
8. Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning
关闭反馈环:从经验提取到洞察治理的 Verbal RL
🔗 https://arxiv.org/abs/2606.17591
💡 一句话:训练-free 的 verbal RL(从经验里提取规则注入 context)在非平稳环境里有 retention-forgetting 困境,提出洞察治理机制。
🎯 ⭐⭐ 跟你的 Agent memory 设计直接相关。"什么时候该记、什么时候该忘、规则怎么治理"是 InternOS memory 层迟早要面对的问题,这篇可以当一个起点。
今日 take:Cordon + Scaling Enterprise Agent Routing 这两篇优先读,一篇给你架构语言(事务边界),一篇给你生产数据(路由退化)。其他的按时间挑着看。