Agent & LLM · 2026年6月2日

每日论文速递 · Agent & LLM

💡 一句话：提出 ICAM 六层模型原生计算框架，把 LLM 系统类比为操作系统——分为概率执行面（能算什么）和确定性控制面（该算什么），还给出了语义局部性定律、上下文预算定律、Agent 加速定律三条设计法则。

2026-06-02 09:06:257 篇论文条目

arXiv:2606.00288 arXiv:2606.01667 arXiv:2606.00953 arXiv:2606.01385 arXiv:2605.30690 arXiv:2605.30314 arXiv:2606.01725

I now have 7 excellent papers. Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期：2026-06-02

1. Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture

（模型原生计算架构：用计算机体系结构的视角重新审视未来系统架构）

🔗 https://arxiv.org/abs/2606.00288

💡 一句话：提出 ICAM 六层模型原生计算框架，把 LLM 系统类比为操作系统——分为"概率执行面"（能算什么）和"确定性控制面"（该算什么），还给出了语义局部性定律、上下文预算定律、Agent 加速定律三条设计法则。

🎯 关联：极高。这篇直接对标你 InternOS 的核心设计哲学——LLM-as-OS、agent 调度、context 管理、权限控制。ICAM 的双平面模型和你的 7 Kernel 架构可以直接对照讨论，特别是确定性控制面的设计思路可能给你的调度器和权限 Kernel 带来启发。

2. ATLAS: Agentic Test-time Learning-to-Allocate Scaling

（ATLAS：Agent 式的测试时自适应算力分配）

🔗 https://arxiv.org/abs/2606.01667

💡 一句话：让 LLM 自己当编排器（orchestrator），自主决定何时多采样、何时停止、何时综合答案——不再依赖人为固定的推理循环，HLE-Verified 上达到 56%，多模型版本到 60%。

🎯 关联：高。这是"Agent 自己管理自己的 compute budget"的范式，和你 InternOS 中 Agent 调度/资源分配直接相关。它的 explore action 设计——让 orchestrator 动态派发 solver——本质上就是一个 mini 版的任务调度内核。

3. Co-Coder: When Parallelism Pays Off — Cohesion-Aware Task Partitioning for Multi-Agent Coding

（Co-Coder：基于内聚度感知的多 Agent 并行编码任务划分）

🔗 https://arxiv.org/abs/2606.00953

💡 一句话：把多 Agent 编排形式化为图分割问题——用静态分析建依赖图，社区检测做分区，依赖感知调度器执行。在 DevEval 上 pass rate 提升 14%，wall-clock 加速 2.1x，API 成本降 35%。

🎯 关联：高。多 Agent 的任务分解和并行化是你 InternOS 多 Agent 协调层的核心问题。它用图分割量化通信-计算 trade-off 的思路很实用——特别是"什么时候并行反而更慢"这个判断逻辑，可以直接借鉴到你的跨 Agent 调度设计里。

4. MAAD: Bridging Requirements and Architecture — Multi-Agent Orchestration with External Knowledge and Hierarchical Memory

（MAAD：用多 Agent 编排+层级记忆+外部知识，自动从需求生成架构设计）

🔗 https://arxiv.org/abs/2606.01385

💡 一句话：四个专门化 Agent（Analyst/Modeler/Designer/Evaluator）协作，接入 RAG 注入架构标准和模式，加层级记忆做迭代优化，自动从需求文档生成多视图架构蓝图。

🎯 关联：高。这个四 Agent 协作的 pattern（分析→建模→设计→评估）和你 InternOS 的多 Kernel 分工思路非常对齐。层级记忆机制（hierarchical memory）也值得看——它怎么在多轮迭代中保持设计历史的一致性，正好是你的 memory Kernel 需要解决的问题。

5. ElasticMem: Latent Memory as a Learnable Resource for LLM Agents

（ElasticMem：把潜在记忆变成 LLM Agent 的可学习弹性资源）

🔗 https://arxiv.org/abs/2605.30690

💡 一句话：不再把 memory 当固定资源——学一个策略来动态决定每条记忆分配多少 latent budget，用 soft memory token 注入生成过程，QA 准确率提升 24-26%，ALFWorld 成功率提升 27-66%。

🎯 关联：中高。InternOS 的 memory 设计如果要从"存了就存了"进化到"智能使用记忆"，这篇的弹性预算分配思路很有价值。特别是"按需分配 memory attention"的机制，比简单的 cosine similarity 检索高了一个档次。

6. SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents

（SpecBench：评估 SE Agent 在规格级推理上的能力）

🔗 https://arxiv.org/abs/2605.30314

💡 一句话：从 Kubernetes、React、Rust、TVM、vLLM 五个项目的 RFC 流程中提取任务，测试 Agent 能否发现设计提案中的遗漏、歧义和不一致——最好的 GPT-5.4 只有 44.4% 准确率。

🎯 关联：中高。这和 InternOS 中"需求→设计→评审"的自动化流程直接相关。44.4% 的准确率说明当前 Agent 在 spec-level reasoning 上还很弱——如果你想在 InternOS 里做自动化需求评审，这个 benchmark 是很好的参考基线。

7. GAIATrace: Characterization of Multi-Model Agentic AI Systems on General Tasks via Trace-Driven Simulation

（GAIATrace：通过 trace 驱动仿真深入刻画多模型 Agent 系统的行为）

🔗 https://arxiv.org/abs/2606.01725

💡 一句话：第一个 token 级别的 Agent 执行 trace 数据集，完整记录推理 token、任务结构和每个参与 LLM 的活动，配套 Vidur-Agent 仿真器做低成本可复现的系统评估。

🎯 关联：中。如果你想理解 Agent 系统在实际执行中的行为模式——哪些环节消耗最多 token、reasoning 和 tool use 的比例如何、多模型协作时的瓶颈在哪——这个 trace 数据集和仿真器是目前最系统化的分析工具。对 InternOS 的性能优化和系统设计决策有参考价值。

今日点评：今天质量很高。第 1 篇（ICAM 六层架构）建议你认真读一下全文，它和你的 InternOS 在概念层几乎完全对齐，但它有更系统化的理论框架和设计公理。第 3 篇 Co-Coder 的图分割思路也很实用——多 Agent 并行不是越多越好，cohesion-aware 的分区策略是工程上绕不开的问题。