A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月2日

每日论文速递 · Agent & LLM

💡 一句话:提出 ICAM 六层模型原生计算框架,把 LLM 系统类比为操作系统——分为概率执行面(能算什么)和确定性控制面(该算什么),还给出了语义局部性定律、上下文预算定律、Agent 加速定律三条设计法则。

I now have 7 excellent papers. Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期:2026-06-02


1. Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture

(模型原生计算架构:用计算机体系结构的视角重新审视未来系统架构)

💡 一句话:提出 ICAM 六层模型原生计算框架,把 LLM 系统类比为操作系统——分为"概率执行面"(能算什么)和"确定性控制面"(该算什么),还给出了语义局部性定律、上下文预算定律、Agent 加速定律三条设计法则。

🎯 关联:极高。这篇直接对标你 InternOS 的核心设计哲学——LLM-as-OS、agent 调度、context 管理、权限控制。ICAM 的双平面模型和你的 7 Kernel 架构可以直接对照讨论,特别是确定性控制面的设计思路可能给你的调度器和权限 Kernel 带来启发。


2. ATLAS: Agentic Test-time Learning-to-Allocate Scaling

(ATLAS:Agent 式的测试时自适应算力分配)

💡 一句话:让 LLM 自己当编排器(orchestrator),自主决定何时多采样、何时停止、何时综合答案——不再依赖人为固定的推理循环,HLE-Verified 上达到 56%,多模型版本到 60%。

🎯 关联:。这是"Agent 自己管理自己的 compute budget"的范式,和你 InternOS 中 Agent 调度/资源分配直接相关。它的 explore action 设计——让 orchestrator 动态派发 solver——本质上就是一个 mini 版的任务调度内核。


3. Co-Coder: When Parallelism Pays Off — Cohesion-Aware Task Partitioning for Multi-Agent Coding

(Co-Coder:基于内聚度感知的多 Agent 并行编码任务划分)

💡 一句话:把多 Agent 编排形式化为图分割问题——用静态分析建依赖图,社区检测做分区,依赖感知调度器执行。在 DevEval 上 pass rate 提升 14%,wall-clock 加速 2.1x,API 成本降 35%。

🎯 关联:。多 Agent 的任务分解和并行化是你 InternOS 多 Agent 协调层的核心问题。它用图分割量化通信-计算 trade-off 的思路很实用——特别是"什么时候并行反而更慢"这个判断逻辑,可以直接借鉴到你的跨 Agent 调度设计里。


4. MAAD: Bridging Requirements and Architecture — Multi-Agent Orchestration with External Knowledge and Hierarchical Memory

(MAAD:用多 Agent 编排+层级记忆+外部知识,自动从需求生成架构设计)

💡 一句话:四个专门化 Agent(Analyst/Modeler/Designer/Evaluator)协作,接入 RAG 注入架构标准和模式,加层级记忆做迭代优化,自动从需求文档生成多视图架构蓝图。

🎯 关联:。这个四 Agent 协作的 pattern(分析→建模→设计→评估)和你 InternOS 的多 Kernel 分工思路非常对齐。层级记忆机制(hierarchical memory)也值得看——它怎么在多轮迭代中保持设计历史的一致性,正好是你的 memory Kernel 需要解决的问题。


5. ElasticMem: Latent Memory as a Learnable Resource for LLM Agents

(ElasticMem:把潜在记忆变成 LLM Agent 的可学习弹性资源)

💡 一句话:不再把 memory 当固定资源——学一个策略来动态决定每条记忆分配多少 latent budget,用 soft memory token 注入生成过程,QA 准确率提升 24-26%,ALFWorld 成功率提升 27-66%。

🎯 关联:中高。InternOS 的 memory 设计如果要从"存了就存了"进化到"智能使用记忆",这篇的弹性预算分配思路很有价值。特别是"按需分配 memory attention"的机制,比简单的 cosine similarity 检索高了一个档次。


6. SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents

(SpecBench:评估 SE Agent 在规格级推理上的能力)

💡 一句话:从 Kubernetes、React、Rust、TVM、vLLM 五个项目的 RFC 流程中提取任务,测试 Agent 能否发现设计提案中的遗漏、歧义和不一致——最好的 GPT-5.4 只有 44.4% 准确率。

🎯 关联:中高。这和 InternOS 中"需求→设计→评审"的自动化流程直接相关。44.4% 的准确率说明当前 Agent 在 spec-level reasoning 上还很弱——如果你想在 InternOS 里做自动化需求评审,这个 benchmark 是很好的参考基线。


7. GAIATrace: Characterization of Multi-Model Agentic AI Systems on General Tasks via Trace-Driven Simulation

(GAIATrace:通过 trace 驱动仿真深入刻画多模型 Agent 系统的行为)

💡 一句话:第一个 token 级别的 Agent 执行 trace 数据集,完整记录推理 token、任务结构和每个参与 LLM 的活动,配套 Vidur-Agent 仿真器做低成本可复现的系统评估。

🎯 关联:。如果你想理解 Agent 系统在实际执行中的行为模式——哪些环节消耗最多 token、reasoning 和 tool use 的比例如何、多模型协作时的瓶颈在哪——这个 trace 数据集和仿真器是目前最系统化的分析工具。对 InternOS 的性能优化和系统设计决策有参考价值。


今日点评:今天质量很高。第 1 篇(ICAM 六层架构)建议你认真读一下全文,它和你的 InternOS 在概念层几乎完全对齐,但它有更系统化的理论框架和设计公理。第 3 篇 Co-Coder 的图分割思路也很实用——多 Agent 并行不是越多越好,cohesion-aware 的分区策略是工程上绕不开的问题。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-02 09:06:25
源文件
2026-06-02_09-06-25.md
链接数
7