Agent & LLM · 2026年6月16日

每日论文速递 · Agent & LLM

💡 一句话：现在的 agent skill 都是 SKILL.md 形式，每次运行都要把整段文档塞进 context，浪费 token。S2L 把每个 skill 训成一个 LoRA adapter，运行时按需挂载，行为等价但 context 干净。

2026-06-16 09:02:267 篇论文条目

arXiv:2606.16769 arXiv:2606.16478 arXiv:2606.16591 arXiv:2606.17016 arXiv:2606.16824 arXiv:2606.16813 arXiv:2606.16613

材料已经足够丰富。我已经有了一批近期（6月15日提交，今天16号刚出来的）的高质量论文。让我现在精选 6 篇与 Anna 的工作（AI Agent 平台 + InternOS 协调系统）最相关的来产出。

我挑选的依据：

- TokenPilot：context管理对长会话agent很关键，InternOS 类系统能用

- Skill-to-LoRA：SKILL.md → LoRA，与 Hermes/Anna 的 skill 机制直接对应

- SING：动态工具发现，Agent 平台核心问题

- Tensor-Coord：多 agent 联合规划冲突消解，跨订单调度直接相关

- CacheWise：coding agent serving 的 KVCache 优化

- CoffeeBench：长 horizon 多 agent 经济系统 benchmark

- GIST-CMTF：goal 推断 + 工具过滤，对承诺跟踪/意图识别有用

选 7 篇。

📄 每日论文速递 · Agent & LLM

日期：2026-06-16

今天 arXiv 上 6/15 提交的一批 LLM Agent 论文质量挺高，挑了 7 篇跟你工作直接相关的。重点看 1、2、4 三篇。

1. Skill-to-LoRA: From Using Skills to Learning Behaviors for Token-Efficient LLM Agents

中文：从「使用 skill」到「学会 skill」——把 SKILL.md 编译成 LoRA adapter

🔗 https://arxiv.org/abs/2606.16769

🎯 关联：直接打到 Hermes/InternOS 的 skill 机制痛点。你现在的 skill 也是 markdown 注入 prompt 的路子，跑久了 context 会爆。这篇可以作为 skill 系统 v2 的路线参考——不一定立刻上 LoRA，但「skill 表达从文本→可执行单元」的思路值得借鉴。建议读。

2. Tensor-Coord: Algebraic Decomposition of Joint Plan Tensors for Conflict-Free Multi-Agent LLM Planning

中文：用张量分解做多 Agent 无冲突联合规划

🔗 https://arxiv.org/abs/2606.16478

💡 一句话：N 个 agent 独立生成 plan 经常撞车（资源竞争、时序死锁）。把联合 plan 表示成 N×H×A 的三阶张量（agent × 时间步 × 动作），用 CP/Tucker 分解抽出协调结构，识别并消解冲突。

🎯 关联：直接对应你纠结的跨订单调度问题。你之前讨论 InternOS 里多 agent 抢资源、时间窗冲突的时候，方案还停在"加协调器"的层面。这篇给了一个数学化的形式——把冲突检测变成张量结构问题，至少值得看看他们的 conflict taxonomy。

3. SING: Synthetic Intention Graph for Scalable Active Tool Discovery in LLM Agents

中文：基于意图图的可扩展主动工具发现

🔗 https://arxiv.org/abs/2606.16591

💡 一句话：tool 数量上千之后，每次都注入全量 schema 不现实，retrieval 又假设了封闭世界。SING 构建合成意图图，让 agent 在开放工具池里主动发现需要的 tool。

🎯 关联：InternOS 平台未来要接外部工具/MCP server 时必然撞上这个问题。你现在工具少还能硬塞，规模上去之后这套思路用得着。

4. TokenPilot: Cache-Efficient Context Management for LLM Agents

中文：面向 LLM Agent 的缓存友好型 context 管理

🔗 https://arxiv.org/abs/2606.17016

💡 一句话：long-horizon agent 会话里，常规的 text pruning / memory eviction 会破坏 prefix cache 命中。TokenPilot 提出双粒度策略：全局保 prefix 连续性，局部做语义压缩，在不丢内容的前提下保住 KV cache。

🎯 关联：和 InternOS 那种长会话/多轮编排场景强相关。你之前提过会话越长成本越炸，这篇给了 serving 侧的具体工程方案，不是纯算法 paper。建议你的 infra 同事一起看。

5. CacheWise: Understanding Workloads and Optimizing KVCache Management for Efficiently Serving LLM Coding Agents

中文：理解 coding agent 的工作负载并优化 KVCache 调度

🔗 https://arxiv.org/abs/2606.16824

💡 一句话：作者真的去采了 coding agent 的真实 trace，发现 session 反复复用大段 prefix、持续 KVCache 压力，传统 serving 策略不适配，提出针对性调度。

🎯 关联：跟 #4 配套读。如果你帮朋友看 AI sandbox 那条线涉及到 coding agent serving，这篇有具体 workload 数据，省得自己摸。

6. GIST-CMTF: Goal-State Inference for Causal Minimal Tool Filtering in LLM Agents

中文：通过目标状态推断做因果性最小工具过滤

🔗 https://arxiv.org/abs/2606.16813

💡 一句话：之前的 tool filtering 假设用户请求已经被映射到明确目标，但现实中"帮我处理一下邮件"对应多种可能目标，会导致 wrong-goal execution。这篇加了一个 goal 推断层。

🎯 关联：跟你之前想做的「承诺跟踪 / 意图识别」机制思路接近——agent 要先搞清楚"用户到底想干嘛"，再决定怎么干。可以参考它的 goal-state 形式化。

7. CoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies

中文：长周期、异构多 Agent 经济系统 benchmark

🔗 https://arxiv.org/abs/2606.16613

💡 一句话：现有 benchmark 大多单 agent + 被动环境。CoffeeBench 构建了一个多 agent 经济系统，agent 之间要沟通、谈判、交易，目标各自不同，跨长时间段评估。

🎯 关联：InternOS 本质就是异构多 agent + 各有目标的协调问题。CoffeeBench 的环境设定可以作为你测试调度/编排能力的参考 benchmark，不一定直接用，但任务结构可以借鉴。

今日观察：6/15 这批论文里有个明显的信号——Agent infra 工程化的论文密度在升高（TokenPilot、CacheWise、Skill-to-LoRA 都是 serving / context / skill 落地的工程问题），不再是纯 prompting/reasoning 那波了。这对你做平台是好事，意味着上游有越来越多可借鉴的具体方案。建议你把 #1 #2 #4 三篇精读一下。