Agent & LLM · 2026年5月24日

每日论文速递 · Agent & LLM

💡 一句话：Agent 部署后能自动从生产环境失败中学习，通过源码级自我改写（而非只改 prompt/config）来修复结构性 bug，在 sandbox 中验证后热替换上线。

2026-05-24 09:04:317 篇论文条目

arXiv:2605.22794 arXiv:2605.21470 arXiv:2605.20874 arXiv:2605.22786 arXiv:2605.20833 arXiv:2605.20315 arXiv:2604.25849

I have all the papers I need. Let me compile the report with the 7 most relevant papers for Anna.

📄 每日论文速递 · Agent & LLM

日期：2026-05-24

1. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

（MOSS：通过源码级重写实现自主 Agent 系统的自我演化）

🔗 https://arxiv.org/abs/2605.22794

💡 一句话：Agent 部署后能自动从生产环境失败中学习，通过源码级自我改写（而非只改 prompt/config）来修复结构性 bug，在 sandbox 中验证后热替换上线。

🎯 关联：极高。这跟 InternOS 的"系统自我进化"方向完全对口——如果 Agent 平台的 kernel 能通过 failure replay 自动重写自己的调度/路由代码，这就是你一直在想的 self-improving agent harness 的学术版本。pipeline 设计（failure evidence batch → coding agent → trial replay → consent-gated swap）值得直接参考。

2. Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling

（Agent JIT 编译：面向 Web Agent 的延迟优化规划与调度）

🔗 https://arxiv.org/abs/2605.21470

💡 一句话：把 Agent 任务描述直接编译成可执行代码（含 LLM 调用+工具调用+并行化），用 Monte Carlo 成本估算做调度，比传统截图-执行循环快 10 倍、准确率高 28%。ICML 2026。

🎯 关联：极高。这篇的 JIT-Planner + JIT-Scheduler 思路直接对应你在 InternOS 里的 Agent 调度层设计——把"一步步调 LLM"变成"先编译出整个执行计划再跑"，还有 invariant-enforcing tool protocol（precondition/postcondition），这对你做跨 Agent 编排的 contract 设计很有参考价值。

3. Governance by Construction for Generalist Agents

（通用 Agent 的构造性治理）

🔗 https://arxiv.org/abs/2605.20874

💡 一句话：提出 5 个结构化检查点（Intent Guard / Playbook / Tool Guide / Human-in-the-Loop / Output Formatter）来做 Agent 执行管线的 policy-as-code 治理，不需要微调模型。

🎯 关联：高。你在 InternOS 里设计的 7 Kernel 中有权限控制和审批流，这篇的 5-checkpoint 架构是同类思路的工业实现。特别是"Tool Approvals"作为 Human-in-the-Loop gate 放在 reasoning loop 外面的设计，跟你的承诺跟踪机制有交叉。

4. LCGuard: Latent Communication Guard for Safe KV Sharing in Multi-Agent Systems

（LCGuard：多 Agent 系统中安全 KV 缓存共享的隐式通信守卫）

🔗 https://arxiv.org/abs/2605.22786

💡 一句话：多 Agent 通过 KV cache 共享来通信时，用对抗训练学一个变换层，让下游 Agent 拿到有用信息但无法重建上游的敏感输入。

🎯 关联：中高。如果 InternOS 的多 Agent 走 KV-cache 级别的通信（而非纯文本），这篇给出了信息隔离的技术路径。即便你现在是 text-level 通信，理解 latent communication 的安全边界对架构演进有帮助。

5. MemGym: a Long-Horizon Memory Environment for LLM Agents

（MemGym：面向 LLM Agent 的长周期记忆评测环境）

🔗 https://arxiv.org/abs/2605.20833

💡 一句话：统一了 tool-use 对话、deep-research、coding、web 导航四类场景的 Agent memory benchmark，能单独测量"memory 能力"而不被 reasoning/retrieval 能力干扰。

🎯 关联：高。InternOS 的 memory 层设计一直是核心难题——什么该记、怎么压缩、跨 session 怎么持久化。这篇的 memory-isolated scoring 方法论可以帮你评估不同 memory 策略的实际效果，特别是他们的 segment-level memory condensation 思路。

6. Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs

（Mix-Quant：面向 Agent 场景的量化预填充 + 精确解码）

🔗 https://arxiv.org/abs/2605.20315

💡 一句话：发现 Agent 场景下 prefilling 阶段可以大胆用 FP4 量化（3x 加速），但 decoding 必须保持 BF16 精度，否则工具调用准确率暴跌。

🎯 关联：中。如果你后续要在 InternOS 里跑本地推理或者做 Agent 推理性能优化，这篇的结论很实用——Agent 对 decoding 精度的敏感性远高于普通 chat，这是个重要的工程 insight。

7. ADEMA: A Knowledge-State Orchestration Architecture for Long-Horizon Knowledge Synthesis with LLM Agents

（ADEMA：面向 LLM Agent 长周期知识合成的知识状态编排架构）

🔗 https://arxiv.org/abs/2604.25849

💡 一句话：提出用显式的"知识状态机"来管理 Agent 长任务中的中间承诺和证据链，支持 checkpoint-resume、segment 压缩、双评估器治理，解决长任务中知识漂移问题。

🎯 关联：高。这篇的 epistemic bookkeeping（显式知识状态追踪）和 checkpoint-resumable persistence 跟你在 InternOS 里想做的"承诺跟踪 + 断点续跑"几乎是同一个问题的学术表述。artifact-first assembly 的理念也值得借鉴。

本日总结：今天质量很高。MOSS（#1）和 Agent JIT（#2）是本周最值得细读的两篇——一个是"Agent 如何自我进化"，一个是"Agent 如何高效调度"，都是你 InternOS 核心关切。Governance by Construction（#3）和 ADEMA（#7）则提供了可以直接对标的架构模式。