Embodied Agents & World Models · 2026年7月4日

每日论文速递 · Embodied Agents & World Models

💡 一句话：把 embodied agent 拆成 typed graph 里的 perception / memory / planning / action 节点，让系统自动搜索更好的 agent 架构，而不是靠研究员手调模块连接。

2026-07-04 09:14:148 篇论文条目

arXiv:2606.30111 arXiv:2606.31612 arXiv:2607.00457 arXiv:2607.01531 arXiv:2607.02501 arXiv:2603.22435 arXiv:2607.02431 arXiv:2607.02195

📄 每日论文速递 · Embodied Agents & World Models

日期：2026-07-04

1. 自动化设计具身 Agent 架构

Automating the Design of Embodied Agent Architectures

🔗 https://arxiv.org/abs/2606.30111

💡 一句话：把 embodied agent 拆成 typed graph 里的 perception / memory / planning / action 节点，让系统自动搜索更好的 agent 架构，而不是靠研究员手调模块连接。

🎯 关联：这篇很贴 Anna 的 InternOS：核心不是“模型更聪明”，而是 agent 执行系统的组织结构、模块边界和可演化架构。值得看。

2. GUI Agent 到底需要什么记忆？从被动记录到主动任务状态

What Memory Do GUI Agents Really Need? From Passive Records to Active Task-Driving States

🔗 https://arxiv.org/abs/2606.31612

💡 一句话：长任务 GUI agent 不能只存历史截图和动作日志，必须维护“当前任务状态”：哪些信息已用、哪些还没用、哪些依赖未满足。

🎯 关联：这就是 InternOS 里的 promise / commitment / task-state tracking 问题。对 agent 平台比很多机器人 benchmark 更有启发。

3. 面向演化环境的多尺度 World Model 混合体

Multi-scale Mixture of World Models for Embodied Agents in Evolving Environments

🔗 https://arxiv.org/abs/2607.00457

💡 一句话：给 embodied agent 配多个不同尺度的 world model，并根据环境变化动态路由和更新，解决“世界变了但 agent 还用旧认知”的问题。

🎯 关联：对未来 agent 系统很关键：agent 不是一次性建模环境，而是持续维护多层环境模型；这和 Anna 关注的长期组织协调系统是同一个抽象。

4. OPINE-World：用交互探索合成程序化 World Model

OPINE-World: Programmatic World Modeling with Ontology-error-Prioritized Interactive Exploration

🔗 https://arxiv.org/abs/2607.01531

💡 一句话：让 LLM 通过交互探索和反例修正，生成可复用的程序化 world model，而不是只训练一个黑盒 transition predictor。

🎯 关联：这篇方向对 generator + verifier + self-improvement loop 很正：agent 通过环境反馈修正自己的“世界规则”，比单纯 rollout 预测更接近可验证执行层。

5. Embodied.cpp：异构机器人上的具身 AI 推理运行时

Embodied.cpp: A Portable Inference Runtime of Embodied AI Models on Heterogeneous Robots

🔗 https://arxiv.org/abs/2607.02501

💡 一句话：把 VLA / world-action models 的部署抽象成 C++ runtime，支持多频率闭环控制、低延迟 batch-1 推理和机器人/模拟器适配。

🎯 关联：这篇对 Anna 朋友的 AI sandbox / hardware infra 线很有用：它讨论的不是模型效果，而是 embodied model 真正落地时的 runtime contract。

6. CaP-X：机器人操作里的 Code-as-Policy Agent 框架

CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation

🔗 https://arxiv.org/abs/2603.22435

💡 一句话：研究 LLM/VLM 写代码控制机器人这条路线，发现当前模型强依赖人工设计的 abstraction，一旦去掉脚手架就明显掉性能。

🎯 关联：这是一个很诚实的负面信号：agent 执行层不能幻想“LLM 自动写 policy 就完事”，必须设计可组合 primitive、环境反馈和失败恢复机制。

7. WorldSample：用 World Model 做真实机器人 RL 的闭环数据增强

WorldSample: Closed-loop Real-robot RL with World Modelling

🔗 https://arxiv.org/abs/2607.02431

💡 一句话：把真实机器人 rollout、world-model 生成的合成 transition、policy improvement 接成闭环，降低真实交互成本。

🎯 关联：这篇的关键是 real-synthetic loop：真实执行提供校准，world model 扩展经验，policy 再改进；这是 embodied self-improvement 的标准形态。

8. Bridge-WA：预测世界哪里会变、怎么变，再指导机器人动作

Bridge-WA: Predicting Where and How the World Changes for Robotic Action

🔗 https://arxiv.org/abs/2607.02195

💡 一句话：不生成完整未来视频，而是蒸馏出 future tokens、change maps、motion-flow maps，让 VLA policy 关注和动作真正相关的变化。

🎯 关联：这个判断是对的：执行层不需要“漂亮视频”，需要 task-relevant future。对 InternOS 也是一样，系统状态预测要服务决策，不是服务展示。

今日判断

今天最明显的趋势：embodied agent 研究正在从“模型能不能看懂/生成动作”转向“执行系统怎么长期稳定工作”。记忆状态、world model 更新、runtime contract、闭环数据增强，都是 agent 真正落地绕不开的系统问题。

我的判断：Anna 应该重点跟踪 task-state memory + world-model correction + runtime interface 这条线，它比单纯 VLA benchmark 更接近未来 AI Agent 平台的核心壁垒。