Agent & LLM · 2026年5月21日

每日论文速递 · Agent & LLM

💡 一句话：把 Agent 的可复用能力从自然语言 prompt 搬到可执行状态机 + hook 策略里——JSON 元数据定义 schema，Python executor 执行，hook 管控流程，skill 本身维护运行时状态。在 Harness-Bench 上 token 用量大幅下降但效果持平甚至更好。

2026-05-21 09:08:487 篇论文条目

arXiv:2605.19604 arXiv:2605.19140 arXiv:2605.19932 arXiv:2605.20485 arXiv:2605.18401 arXiv:2605.19418 arXiv:2605.20923

I now have all the data I need. I've thoroughly reviewed the latest arXiv papers and identified 7 highly relevant ones. Let me compile the digest.

📄 每日论文速递 · Agent & LLM

日期：2026-05-21

1. Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents

Formal Skill：面向高效精确 LLM Agent 的可编程运行时技能

🔗 https://arxiv.org/abs/2605.19604

🎯 关联：极高。这篇直接对标你在 InternOS 里做的 skill/kernel 抽象。它把 MCP server、function calling 等都归类为"informal skill"，然后提出用状态机+hook 的 formal 方案。你设计 7 Kernel 时如果需要让 kernel 自己维护执行状态和策略边界，这篇的架构思路值得直接参考。

2. Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints

学会交接：接口约束下可证明收敛的工作流学习

🔗 https://arxiv.org/abs/2605.19140

💡 一句话：多 Agent pipeline 中每个 Agent 只看自己的局部状态，通过一个共享 artifact 交接控制权。论文形式化为 interface-constrained semi-MDP，设计了 IC-Q 算法——Agent 间协调只需要在每个 handoff 点传递一个标量。有有限样本理论保证。

🎯 关联：极高。InternOS 的跨 Kernel 调度、承诺跟踪机制本质上就是 handoff 问题。这篇的"每个 Agent 只看局部状态 + 共享 artifact 交接"的形式化，和你想做的组织协调是同一个问题。IC-SMDP 的形式化可能帮你想清楚 Kernel 间的接口契约到底需要传递什么。

3. PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

PEEK：用上下文地图作为长上下文 LLM Agent 的定向缓存

🔗 https://arxiv.org/abs/2605.19932

💡 一句话：Agent 反复操作同一个大上下文（代码仓库、文档库），与其每次重新 retrieve，不如维护一个"context map"——固定 token 预算的结构化方向感知识。比 ACE 便宜 1.7-5.8x，准确率提升 6-34%。Omar Khattab（DSPy 作者）参与。

🎯 关联：高。InternOS 的 memory 层设计可以参考这个思路——不是存所有历史，而是维护一张"这个组织长什么样、哪些实体/资源/schema 重要"的 orientation map。这比 RAG 检索更高效，特别适合你的重复性组织协调场景。

4. ZEBRA: Zero-shot Budgeted Resource Allocation for LLM Orchestration

ZEBRA：面向 LLM 编排的零样本预算分配

🔗 https://arxiv.org/abs/2605.20485

💡 一句话：多 Agent pipeline 在固定预算下运行时，怎么把钱/算力分给不同阶段？ZEBRA 把这建模成连续非线性背包问题，用 water-filling 算法求解。50% 预算下恢复 94.4% 的质量。

🎯 关联：高。如果 InternOS 未来要做资源编排（token 预算、API 调用额度分配给不同 Kernel），ZEBRA 的方法很实用——不需要 RL 训练，推理时直接用算法分配。

5. SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

SkillsVote：Agent 技能的全生命周期治理

🔗 https://arxiv.org/abs/2605.18401

💡 一句话：Agent 执行留下的轨迹可以提炼成可复用技能，但技能库会变脏。SkillsVote 做技能全生命周期管理：收集、推荐、归因（哪些成功归功于 skill 而非 agent 本身）、证据门控更新。在 SWE-Bench Pro 上 +2.6pp。

🎯 关联：高。InternOS 如果积累组织运作的"最佳实践"库，就会面临同样的技能污染问题。这篇的 evidence-gated update 机制——只允许有成功证据支撑的技能进入库——可以直接借鉴到你的经验管理设计中。

6. Conflict-Resilient Multi-Agent Reasoning via Signed Graph Modeling (SIGMA)

SIGMA：基于符号图建模的冲突鲁棒多智能体推理

🔗 https://arxiv.org/abs/2605.19418

💡 一句话：多 Agent 系统里 Agent 之间不总是一致的——会有冲突信号。现有框架盲目聚合导致错误传播。SIGMA 用 signed graph 显式建模 Agent 间的信任/冲突/中立关系，conflict-aware 消息传播抑制不可靠信号。

🎯 关联：中高。InternOS 如果有多个 Kernel 或多个信息源给出矛盾建议，怎么聚合？这篇的 signed graph + confidence-weighted edge 的思路比简单投票或 majority vote 靠谱得多。

7. Causal Past Logic for Runtime Verification of Distributed LLM Agent Workflows

面向分布式 LLM Agent 工作流的因果过去时逻辑运行时验证

🔗 https://arxiv.org/abs/2605.20923

💡 一句话：分布式多 Agent 工作流不该当成单一顺序日志来监控。每个 Agent 的决策只能依赖因果可见的事件。论文提出 Causal Past Logic（CPL），用向量时钟实现运行时验证，让验证成为协调语言本身的一部分而非事后检查。

🎯 关联：中高。这篇偏形式化/PL 方向，但核心思想对 InternOS 很有价值——当多个 Kernel 异步执行时，怎么保证某个 Kernel 的决策只基于它"因果可见"的信息？这比你用 timestamp 排序要严谨。如果 InternOS 需要审计/可追溯性，CPL 的思路值得关注。

今日总评：本周 Agent 方向论文井喷，质量整体不错。前两篇（Formal Skill 和 IC-Q Handoff）跟你当前的 InternOS 架构设计直接相关，建议优先看。PEEK 的 context map 概念可能启发你的 memory 设计。