Agent & LLM · 2026年6月2日
每日论文速递 · Agent & LLM
💡 一句话:提出 ICAM 六层模型原生计算框架,把 LLM 系统类比为操作系统——分为概率执行面(能算什么)和确定性控制面(该算什么),还给出了语义局部性定律、上下文预算定律、Agent 加速定律三条设计法则。
I now have 7 excellent papers. Let me compile the report.
📄 每日论文速递 · Agent & LLM
日期:2026-06-02
1. Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture
(模型原生计算架构:用计算机体系结构的视角重新审视未来系统架构)
🔗 https://arxiv.org/abs/2606.00288
💡 一句话:提出 ICAM 六层模型原生计算框架,把 LLM 系统类比为操作系统——分为"概率执行面"(能算什么)和"确定性控制面"(该算什么),还给出了语义局部性定律、上下文预算定律、Agent 加速定律三条设计法则。
🎯 关联:极高。这篇直接对标你 InternOS 的核心设计哲学——LLM-as-OS、agent 调度、context 管理、权限控制。ICAM 的双平面模型和你的 7 Kernel 架构可以直接对照讨论,特别是确定性控制面的设计思路可能给你的调度器和权限 Kernel 带来启发。
2. ATLAS: Agentic Test-time Learning-to-Allocate Scaling
(ATLAS:Agent 式的测试时自适应算力分配)
🔗 https://arxiv.org/abs/2606.01667
💡 一句话:让 LLM 自己当编排器(orchestrator),自主决定何时多采样、何时停止、何时综合答案——不再依赖人为固定的推理循环,HLE-Verified 上达到 56%,多模型版本到 60%。
🎯 关联:高。这是"Agent 自己管理自己的 compute budget"的范式,和你 InternOS 中 Agent 调度/资源分配直接相关。它的 explore action 设计——让 orchestrator 动态派发 solver——本质上就是一个 mini 版的任务调度内核。
3. Co-Coder: When Parallelism Pays Off — Cohesion-Aware Task Partitioning for Multi-Agent Coding
(Co-Coder:基于内聚度感知的多 Agent 并行编码任务划分)
🔗 https://arxiv.org/abs/2606.00953
💡 一句话:把多 Agent 编排形式化为图分割问题——用静态分析建依赖图,社区检测做分区,依赖感知调度器执行。在 DevEval 上 pass rate 提升 14%,wall-clock 加速 2.1x,API 成本降 35%。
🎯 关联:高。多 Agent 的任务分解和并行化是你 InternOS 多 Agent 协调层的核心问题。它用图分割量化通信-计算 trade-off 的思路很实用——特别是"什么时候并行反而更慢"这个判断逻辑,可以直接借鉴到你的跨 Agent 调度设计里。
4. MAAD: Bridging Requirements and Architecture — Multi-Agent Orchestration with External Knowledge and Hierarchical Memory
(MAAD:用多 Agent 编排+层级记忆+外部知识,自动从需求生成架构设计)
🔗 https://arxiv.org/abs/2606.01385
💡 一句话:四个专门化 Agent(Analyst/Modeler/Designer/Evaluator)协作,接入 RAG 注入架构标准和模式,加层级记忆做迭代优化,自动从需求文档生成多视图架构蓝图。
🎯 关联:高。这个四 Agent 协作的 pattern(分析→建模→设计→评估)和你 InternOS 的多 Kernel 分工思路非常对齐。层级记忆机制(hierarchical memory)也值得看——它怎么在多轮迭代中保持设计历史的一致性,正好是你的 memory Kernel 需要解决的问题。
5. ElasticMem: Latent Memory as a Learnable Resource for LLM Agents
(ElasticMem:把潜在记忆变成 LLM Agent 的可学习弹性资源)
🔗 https://arxiv.org/abs/2605.30690
💡 一句话:不再把 memory 当固定资源——学一个策略来动态决定每条记忆分配多少 latent budget,用 soft memory token 注入生成过程,QA 准确率提升 24-26%,ALFWorld 成功率提升 27-66%。
🎯 关联:中高。InternOS 的 memory 设计如果要从"存了就存了"进化到"智能使用记忆",这篇的弹性预算分配思路很有价值。特别是"按需分配 memory attention"的机制,比简单的 cosine similarity 检索高了一个档次。
6. SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents
(SpecBench:评估 SE Agent 在规格级推理上的能力)
🔗 https://arxiv.org/abs/2605.30314
💡 一句话:从 Kubernetes、React、Rust、TVM、vLLM 五个项目的 RFC 流程中提取任务,测试 Agent 能否发现设计提案中的遗漏、歧义和不一致——最好的 GPT-5.4 只有 44.4% 准确率。
🎯 关联:中高。这和 InternOS 中"需求→设计→评审"的自动化流程直接相关。44.4% 的准确率说明当前 Agent 在 spec-level reasoning 上还很弱——如果你想在 InternOS 里做自动化需求评审,这个 benchmark 是很好的参考基线。
7. GAIATrace: Characterization of Multi-Model Agentic AI Systems on General Tasks via Trace-Driven Simulation
(GAIATrace:通过 trace 驱动仿真深入刻画多模型 Agent 系统的行为)
🔗 https://arxiv.org/abs/2606.01725
💡 一句话:第一个 token 级别的 Agent 执行 trace 数据集,完整记录推理 token、任务结构和每个参与 LLM 的活动,配套 Vidur-Agent 仿真器做低成本可复现的系统评估。
🎯 关联:中。如果你想理解 Agent 系统在实际执行中的行为模式——哪些环节消耗最多 token、reasoning 和 tool use 的比例如何、多模型协作时的瓶颈在哪——这个 trace 数据集和仿真器是目前最系统化的分析工具。对 InternOS 的性能优化和系统设计决策有参考价值。
今日点评:今天质量很高。第 1 篇(ICAM 六层架构)建议你认真读一下全文,它和你的 InternOS 在概念层几乎完全对齐,但它有更系统化的理论框架和设计公理。第 3 篇 Co-Coder 的图分割思路也很实用——多 Agent 并行不是越多越好,cohesion-aware 的分区策略是工程上绕不开的问题。