Agent & LLM · 2026年5月21日
每日论文速递 · Agent & LLM
💡 一句话:把 Agent 的可复用能力从自然语言 prompt 搬到可执行状态机 + hook 策略里——JSON 元数据定义 schema,Python executor 执行,hook 管控流程,skill 本身维护运行时状态。在 Harness-Bench 上 token 用量大幅下降但效果持平甚至更好。
I now have all the data I need. I've thoroughly reviewed the latest arXiv papers and identified 7 highly relevant ones. Let me compile the digest.
📄 每日论文速递 · Agent & LLM
日期:2026-05-21
1. Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents
Formal Skill:面向高效精确 LLM Agent 的可编程运行时技能
🔗 https://arxiv.org/abs/2605.19604
💡 一句话:把 Agent 的可复用能力从自然语言 prompt 搬到可执行状态机 + hook 策略里——JSON 元数据定义 schema,Python executor 执行,hook 管控流程,skill 本身维护运行时状态。在 Harness-Bench 上 token 用量大幅下降但效果持平甚至更好。
🎯 关联:极高。这篇直接对标你在 InternOS 里做的 skill/kernel 抽象。它把 MCP server、function calling 等都归类为"informal skill",然后提出用状态机+hook 的 formal 方案。你设计 7 Kernel 时如果需要让 kernel 自己维护执行状态和策略边界,这篇的架构思路值得直接参考。
2. Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints
学会交接:接口约束下可证明收敛的工作流学习
🔗 https://arxiv.org/abs/2605.19140
💡 一句话:多 Agent pipeline 中每个 Agent 只看自己的局部状态,通过一个共享 artifact 交接控制权。论文形式化为 interface-constrained semi-MDP,设计了 IC-Q 算法——Agent 间协调只需要在每个 handoff 点传递一个标量。有有限样本理论保证。
🎯 关联:极高。InternOS 的跨 Kernel 调度、承诺跟踪机制本质上就是 handoff 问题。这篇的"每个 Agent 只看局部状态 + 共享 artifact 交接"的形式化,和你想做的组织协调是同一个问题。IC-SMDP 的形式化可能帮你想清楚 Kernel 间的接口契约到底需要传递什么。
3. PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents
PEEK:用上下文地图作为长上下文 LLM Agent 的定向缓存
🔗 https://arxiv.org/abs/2605.19932
💡 一句话:Agent 反复操作同一个大上下文(代码仓库、文档库),与其每次重新 retrieve,不如维护一个"context map"——固定 token 预算的结构化方向感知识。比 ACE 便宜 1.7-5.8x,准确率提升 6-34%。Omar Khattab(DSPy 作者)参与。
🎯 关联:高。InternOS 的 memory 层设计可以参考这个思路——不是存所有历史,而是维护一张"这个组织长什么样、哪些实体/资源/schema 重要"的 orientation map。这比 RAG 检索更高效,特别适合你的重复性组织协调场景。
4. ZEBRA: Zero-shot Budgeted Resource Allocation for LLM Orchestration
ZEBRA:面向 LLM 编排的零样本预算分配
🔗 https://arxiv.org/abs/2605.20485
💡 一句话:多 Agent pipeline 在固定预算下运行时,怎么把钱/算力分给不同阶段?ZEBRA 把这建模成连续非线性背包问题,用 water-filling 算法求解。50% 预算下恢复 94.4% 的质量。
🎯 关联:高。如果 InternOS 未来要做资源编排(token 预算、API 调用额度分配给不同 Kernel),ZEBRA 的方法很实用——不需要 RL 训练,推理时直接用算法分配。
5. SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution
SkillsVote:Agent 技能的全生命周期治理
🔗 https://arxiv.org/abs/2605.18401
💡 一句话:Agent 执行留下的轨迹可以提炼成可复用技能,但技能库会变脏。SkillsVote 做技能全生命周期管理:收集、推荐、归因(哪些成功归功于 skill 而非 agent 本身)、证据门控更新。在 SWE-Bench Pro 上 +2.6pp。
🎯 关联:高。InternOS 如果积累组织运作的"最佳实践"库,就会面临同样的技能污染问题。这篇的 evidence-gated update 机制——只允许有成功证据支撑的技能进入库——可以直接借鉴到你的经验管理设计中。
6. Conflict-Resilient Multi-Agent Reasoning via Signed Graph Modeling (SIGMA)
SIGMA:基于符号图建模的冲突鲁棒多智能体推理
🔗 https://arxiv.org/abs/2605.19418
💡 一句话:多 Agent 系统里 Agent 之间不总是一致的——会有冲突信号。现有框架盲目聚合导致错误传播。SIGMA 用 signed graph 显式建模 Agent 间的信任/冲突/中立关系,conflict-aware 消息传播抑制不可靠信号。
🎯 关联:中高。InternOS 如果有多个 Kernel 或多个信息源给出矛盾建议,怎么聚合?这篇的 signed graph + confidence-weighted edge 的思路比简单投票或 majority vote 靠谱得多。
7. Causal Past Logic for Runtime Verification of Distributed LLM Agent Workflows
面向分布式 LLM Agent 工作流的因果过去时逻辑运行时验证
🔗 https://arxiv.org/abs/2605.20923
💡 一句话:分布式多 Agent 工作流不该当成单一顺序日志来监控。每个 Agent 的决策只能依赖因果可见的事件。论文提出 Causal Past Logic(CPL),用向量时钟实现运行时验证,让验证成为协调语言本身的一部分而非事后检查。
🎯 关联:中高。这篇偏形式化/PL 方向,但核心思想对 InternOS 很有价值——当多个 Kernel 异步执行时,怎么保证某个 Kernel 的决策只基于它"因果可见"的信息?这比你用 timestamp 排序要严谨。如果 InternOS 需要审计/可追溯性,CPL 的思路值得关注。
今日总评:本周 Agent 方向论文井喷,质量整体不错。前两篇(Formal Skill 和 IC-Q Handoff)跟你当前的 InternOS 架构设计直接相关,建议优先看。PEEK 的 context map 概念可能启发你的 memory 设计。