Agent & LLM · 2026年6月16日
每日论文速递 · Agent & LLM
💡 一句话:现在的 agent skill 都是 SKILL.md 形式,每次运行都要把整段文档塞进 context,浪费 token。S2L 把每个 skill 训成一个 LoRA adapter,运行时按需挂载,行为等价但 context 干净。
材料已经足够丰富。我已经有了一批近期(6月15日提交,今天16号刚出来的)的高质量论文。让我现在精选 6 篇与 Anna 的工作(AI Agent 平台 + InternOS 协调系统)最相关的来产出。
我挑选的依据:
- TokenPilot:context管理对长会话agent很关键,InternOS 类系统能用
- Skill-to-LoRA:SKILL.md → LoRA,与 Hermes/Anna 的 skill 机制直接对应
- SING:动态工具发现,Agent 平台核心问题
- Tensor-Coord:多 agent 联合规划冲突消解,跨订单调度直接相关
- CacheWise:coding agent serving 的 KVCache 优化
- CoffeeBench:长 horizon 多 agent 经济系统 benchmark
- GIST-CMTF:goal 推断 + 工具过滤,对承诺跟踪/意图识别有用
选 7 篇。
📄 每日论文速递 · Agent & LLM
日期:2026-06-16
今天 arXiv 上 6/15 提交的一批 LLM Agent 论文质量挺高,挑了 7 篇跟你工作直接相关的。重点看 1、2、4 三篇。
1. Skill-to-LoRA: From Using Skills to Learning Behaviors for Token-Efficient LLM Agents
中文:从「使用 skill」到「学会 skill」——把 SKILL.md 编译成 LoRA adapter
🔗 https://arxiv.org/abs/2606.16769
💡 一句话:现在的 agent skill 都是 SKILL.md 形式,每次运行都要把整段文档塞进 context,浪费 token。S2L 把每个 skill 训成一个 LoRA adapter,运行时按需挂载,行为等价但 context 干净。
🎯 关联:直接打到 Hermes/InternOS 的 skill 机制痛点。你现在的 skill 也是 markdown 注入 prompt 的路子,跑久了 context 会爆。这篇可以作为 skill 系统 v2 的路线参考——不一定立刻上 LoRA,但「skill 表达从文本→可执行单元」的思路值得借鉴。建议读。
2. Tensor-Coord: Algebraic Decomposition of Joint Plan Tensors for Conflict-Free Multi-Agent LLM Planning
中文:用张量分解做多 Agent 无冲突联合规划
🔗 https://arxiv.org/abs/2606.16478
💡 一句话:N 个 agent 独立生成 plan 经常撞车(资源竞争、时序死锁)。把联合 plan 表示成 N×H×A 的三阶张量(agent × 时间步 × 动作),用 CP/Tucker 分解抽出协调结构,识别并消解冲突。
🎯 关联:直接对应你纠结的跨订单调度问题。你之前讨论 InternOS 里多 agent 抢资源、时间窗冲突的时候,方案还停在"加协调器"的层面。这篇给了一个数学化的形式——把冲突检测变成张量结构问题,至少值得看看他们的 conflict taxonomy。
3. SING: Synthetic Intention Graph for Scalable Active Tool Discovery in LLM Agents
中文:基于意图图的可扩展主动工具发现
🔗 https://arxiv.org/abs/2606.16591
💡 一句话:tool 数量上千之后,每次都注入全量 schema 不现实,retrieval 又假设了封闭世界。SING 构建合成意图图,让 agent 在开放工具池里主动发现需要的 tool。
🎯 关联:InternOS 平台未来要接外部工具/MCP server 时必然撞上这个问题。你现在工具少还能硬塞,规模上去之后这套思路用得着。
4. TokenPilot: Cache-Efficient Context Management for LLM Agents
中文:面向 LLM Agent 的缓存友好型 context 管理
🔗 https://arxiv.org/abs/2606.17016
💡 一句话:long-horizon agent 会话里,常规的 text pruning / memory eviction 会破坏 prefix cache 命中。TokenPilot 提出双粒度策略:全局保 prefix 连续性,局部做语义压缩,在不丢内容的前提下保住 KV cache。
🎯 关联:和 InternOS 那种长会话/多轮编排场景强相关。你之前提过会话越长成本越炸,这篇给了 serving 侧的具体工程方案,不是纯算法 paper。建议你的 infra 同事一起看。
5. CacheWise: Understanding Workloads and Optimizing KVCache Management for Efficiently Serving LLM Coding Agents
中文:理解 coding agent 的工作负载并优化 KVCache 调度
🔗 https://arxiv.org/abs/2606.16824
💡 一句话:作者真的去采了 coding agent 的真实 trace,发现 session 反复复用大段 prefix、持续 KVCache 压力,传统 serving 策略不适配,提出针对性调度。
🎯 关联:跟 #4 配套读。如果你帮朋友看 AI sandbox 那条线涉及到 coding agent serving,这篇有具体 workload 数据,省得自己摸。
6. GIST-CMTF: Goal-State Inference for Causal Minimal Tool Filtering in LLM Agents
中文:通过目标状态推断做因果性最小工具过滤
🔗 https://arxiv.org/abs/2606.16813
💡 一句话:之前的 tool filtering 假设用户请求已经被映射到明确目标,但现实中"帮我处理一下邮件"对应多种可能目标,会导致 wrong-goal execution。这篇加了一个 goal 推断层。
🎯 关联:跟你之前想做的「承诺跟踪 / 意图识别」机制思路接近——agent 要先搞清楚"用户到底想干嘛",再决定怎么干。可以参考它的 goal-state 形式化。
7. CoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies
中文:长周期、异构多 Agent 经济系统 benchmark
🔗 https://arxiv.org/abs/2606.16613
💡 一句话:现有 benchmark 大多单 agent + 被动环境。CoffeeBench 构建了一个多 agent 经济系统,agent 之间要沟通、谈判、交易,目标各自不同,跨长时间段评估。
🎯 关联:InternOS 本质就是异构多 agent + 各有目标的协调问题。CoffeeBench 的环境设定可以作为你测试调度/编排能力的参考 benchmark,不一定直接用,但任务结构可以借鉴。
今日观察:6/15 这批论文里有个明显的信号——Agent infra 工程化的论文密度在升高(TokenPilot、CacheWise、Skill-to-LoRA 都是 serving / context / skill 落地的工程问题),不再是纯 prompting/reasoning 那波了。这对你做平台是好事,意味着上游有越来越多可借鉴的具体方案。建议你把 #1 #2 #4 三篇精读一下。