Embodied Agents & World Models · 2026年7月4日
每日论文速递 · Embodied Agents & World Models
💡 一句话:把 embodied agent 拆成 typed graph 里的 perception / memory / planning / action 节点,让系统自动搜索更好的 agent 架构,而不是靠研究员手调模块连接。
📄 每日论文速递 · Embodied Agents & World Models
日期:2026-07-04
1. 自动化设计具身 Agent 架构
Automating the Design of Embodied Agent Architectures
🔗 https://arxiv.org/abs/2606.30111
💡 一句话:把 embodied agent 拆成 typed graph 里的 perception / memory / planning / action 节点,让系统自动搜索更好的 agent 架构,而不是靠研究员手调模块连接。
🎯 关联:这篇很贴 Anna 的 InternOS:核心不是“模型更聪明”,而是 agent 执行系统的组织结构、模块边界和可演化架构。值得看。
2. GUI Agent 到底需要什么记忆?从被动记录到主动任务状态
What Memory Do GUI Agents Really Need? From Passive Records to Active Task-Driving States
🔗 https://arxiv.org/abs/2606.31612
💡 一句话:长任务 GUI agent 不能只存历史截图和动作日志,必须维护“当前任务状态”:哪些信息已用、哪些还没用、哪些依赖未满足。
🎯 关联:这就是 InternOS 里的 promise / commitment / task-state tracking 问题。对 agent 平台比很多机器人 benchmark 更有启发。
3. 面向演化环境的多尺度 World Model 混合体
Multi-scale Mixture of World Models for Embodied Agents in Evolving Environments
🔗 https://arxiv.org/abs/2607.00457
💡 一句话:给 embodied agent 配多个不同尺度的 world model,并根据环境变化动态路由和更新,解决“世界变了但 agent 还用旧认知”的问题。
🎯 关联:对未来 agent 系统很关键:agent 不是一次性建模环境,而是持续维护多层环境模型;这和 Anna 关注的长期组织协调系统是同一个抽象。
4. OPINE-World:用交互探索合成程序化 World Model
OPINE-World: Programmatic World Modeling with Ontology-error-Prioritized Interactive Exploration
🔗 https://arxiv.org/abs/2607.01531
💡 一句话:让 LLM 通过交互探索和反例修正,生成可复用的程序化 world model,而不是只训练一个黑盒 transition predictor。
🎯 关联:这篇方向对 generator + verifier + self-improvement loop 很正:agent 通过环境反馈修正自己的“世界规则”,比单纯 rollout 预测更接近可验证执行层。
5. Embodied.cpp:异构机器人上的具身 AI 推理运行时
Embodied.cpp: A Portable Inference Runtime of Embodied AI Models on Heterogeneous Robots
🔗 https://arxiv.org/abs/2607.02501
💡 一句话:把 VLA / world-action models 的部署抽象成 C++ runtime,支持多频率闭环控制、低延迟 batch-1 推理和机器人/模拟器适配。
🎯 关联:这篇对 Anna 朋友的 AI sandbox / hardware infra 线很有用:它讨论的不是模型效果,而是 embodied model 真正落地时的 runtime contract。
6. CaP-X:机器人操作里的 Code-as-Policy Agent 框架
CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation
🔗 https://arxiv.org/abs/2603.22435
💡 一句话:研究 LLM/VLM 写代码控制机器人这条路线,发现当前模型强依赖人工设计的 abstraction,一旦去掉脚手架就明显掉性能。
🎯 关联:这是一个很诚实的负面信号:agent 执行层不能幻想“LLM 自动写 policy 就完事”,必须设计可组合 primitive、环境反馈和失败恢复机制。
7. WorldSample:用 World Model 做真实机器人 RL 的闭环数据增强
WorldSample: Closed-loop Real-robot RL with World Modelling
🔗 https://arxiv.org/abs/2607.02431
💡 一句话:把真实机器人 rollout、world-model 生成的合成 transition、policy improvement 接成闭环,降低真实交互成本。
🎯 关联:这篇的关键是 real-synthetic loop:真实执行提供校准,world model 扩展经验,policy 再改进;这是 embodied self-improvement 的标准形态。
8. Bridge-WA:预测世界哪里会变、怎么变,再指导机器人动作
Bridge-WA: Predicting Where and How the World Changes for Robotic Action
🔗 https://arxiv.org/abs/2607.02195
💡 一句话:不生成完整未来视频,而是蒸馏出 future tokens、change maps、motion-flow maps,让 VLA policy 关注和动作真正相关的变化。
🎯 关联:这个判断是对的:执行层不需要“漂亮视频”,需要 task-relevant future。对 InternOS 也是一样,系统状态预测要服务决策,不是服务展示。
今日判断
今天最明显的趋势:embodied agent 研究正在从“模型能不能看懂/生成动作”转向“执行系统怎么长期稳定工作”。记忆状态、world model 更新、runtime contract、闭环数据增强,都是 agent 真正落地绕不开的系统问题。
我的判断:Anna 应该重点跟踪 task-state memory + world-model correction + runtime interface 这条线,它比单纯 VLA benchmark 更接近未来 AI Agent 平台的核心壁垒。