Agent & LLM · 2026年5月24日
每日论文速递 · Agent & LLM
💡 一句话:Agent 部署后能自动从生产环境失败中学习,通过源码级自我改写(而非只改 prompt/config)来修复结构性 bug,在 sandbox 中验证后热替换上线。
I have all the papers I need. Let me compile the report with the 7 most relevant papers for Anna.
📄 每日论文速递 · Agent & LLM
日期:2026-05-24
1. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems
(MOSS:通过源码级重写实现自主 Agent 系统的自我演化)
🔗 https://arxiv.org/abs/2605.22794
💡 一句话:Agent 部署后能自动从生产环境失败中学习,通过源码级自我改写(而非只改 prompt/config)来修复结构性 bug,在 sandbox 中验证后热替换上线。
🎯 关联:极高。这跟 InternOS 的"系统自我进化"方向完全对口——如果 Agent 平台的 kernel 能通过 failure replay 自动重写自己的调度/路由代码,这就是你一直在想的 self-improving agent harness 的学术版本。pipeline 设计(failure evidence batch → coding agent → trial replay → consent-gated swap)值得直接参考。
2. Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling
(Agent JIT 编译:面向 Web Agent 的延迟优化规划与调度)
🔗 https://arxiv.org/abs/2605.21470
💡 一句话:把 Agent 任务描述直接编译成可执行代码(含 LLM 调用+工具调用+并行化),用 Monte Carlo 成本估算做调度,比传统截图-执行循环快 10 倍、准确率高 28%。ICML 2026。
🎯 关联:极高。这篇的 JIT-Planner + JIT-Scheduler 思路直接对应你在 InternOS 里的 Agent 调度层设计——把"一步步调 LLM"变成"先编译出整个执行计划再跑",还有 invariant-enforcing tool protocol(precondition/postcondition),这对你做跨 Agent 编排的 contract 设计很有参考价值。
3. Governance by Construction for Generalist Agents
(通用 Agent 的构造性治理)
🔗 https://arxiv.org/abs/2605.20874
💡 一句话:提出 5 个结构化检查点(Intent Guard / Playbook / Tool Guide / Human-in-the-Loop / Output Formatter)来做 Agent 执行管线的 policy-as-code 治理,不需要微调模型。
🎯 关联:高。你在 InternOS 里设计的 7 Kernel 中有权限控制和审批流,这篇的 5-checkpoint 架构是同类思路的工业实现。特别是"Tool Approvals"作为 Human-in-the-Loop gate 放在 reasoning loop 外面的设计,跟你的承诺跟踪机制有交叉。
4. LCGuard: Latent Communication Guard for Safe KV Sharing in Multi-Agent Systems
(LCGuard:多 Agent 系统中安全 KV 缓存共享的隐式通信守卫)
🔗 https://arxiv.org/abs/2605.22786
💡 一句话:多 Agent 通过 KV cache 共享来通信时,用对抗训练学一个变换层,让下游 Agent 拿到有用信息但无法重建上游的敏感输入。
🎯 关联:中高。如果 InternOS 的多 Agent 走 KV-cache 级别的通信(而非纯文本),这篇给出了信息隔离的技术路径。即便你现在是 text-level 通信,理解 latent communication 的安全边界对架构演进有帮助。
5. MemGym: a Long-Horizon Memory Environment for LLM Agents
(MemGym:面向 LLM Agent 的长周期记忆评测环境)
🔗 https://arxiv.org/abs/2605.20833
💡 一句话:统一了 tool-use 对话、deep-research、coding、web 导航四类场景的 Agent memory benchmark,能单独测量"memory 能力"而不被 reasoning/retrieval 能力干扰。
🎯 关联:高。InternOS 的 memory 层设计一直是核心难题——什么该记、怎么压缩、跨 session 怎么持久化。这篇的 memory-isolated scoring 方法论可以帮你评估不同 memory 策略的实际效果,特别是他们的 segment-level memory condensation 思路。
6. Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs
(Mix-Quant:面向 Agent 场景的量化预填充 + 精确解码)
🔗 https://arxiv.org/abs/2605.20315
💡 一句话:发现 Agent 场景下 prefilling 阶段可以大胆用 FP4 量化(3x 加速),但 decoding 必须保持 BF16 精度,否则工具调用准确率暴跌。
🎯 关联:中。如果你后续要在 InternOS 里跑本地推理或者做 Agent 推理性能优化,这篇的结论很实用——Agent 对 decoding 精度的敏感性远高于普通 chat,这是个重要的工程 insight。
7. ADEMA: A Knowledge-State Orchestration Architecture for Long-Horizon Knowledge Synthesis with LLM Agents
(ADEMA:面向 LLM Agent 长周期知识合成的知识状态编排架构)
🔗 https://arxiv.org/abs/2604.25849
💡 一句话:提出用显式的"知识状态机"来管理 Agent 长任务中的中间承诺和证据链,支持 checkpoint-resume、segment 压缩、双评估器治理,解决长任务中知识漂移问题。
🎯 关联:高。这篇的 epistemic bookkeeping(显式知识状态追踪)和 checkpoint-resumable persistence 跟你在 InternOS 里想做的"承诺跟踪 + 断点续跑"几乎是同一个问题的学术表述。artifact-first assembly 的理念也值得借鉴。
本日总结:今天质量很高。MOSS(#1)和 Agent JIT(#2)是本周最值得细读的两篇——一个是"Agent 如何自我进化",一个是"Agent 如何高效调度",都是你 InternOS 核心关切。Governance by Construction(#3)和 ADEMA(#7)则提供了可以直接对标的架构模式。