Embodied Agents & World Models · 2026年7月5日

每日论文速递 · Embodied Agents & World Models

💡 一句话：把语言指令转成 skill graph，并用 3D spatial memory、资源调度、执行监控和 runtime feedback 做真实机器人闭环。

2026-07-05 09:12:248 篇论文条目

arXiv:2606.23565 arXiv:2606.27251 arXiv:2607.00502 arXiv:2606.22948 arXiv:2607.01804 arXiv:2607.02466 arXiv:2607.00457 arXiv:2607.02195

📄 每日论文速递 · Embodied Agents & World Models

日期：2026-07-05

1. HoloAgent-0：带 3D 空间记忆的统一具身 Agent 框架

HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory

🔗 https://arxiv.org/abs/2606.23565

💡 一句话：把语言指令转成 skill graph，并用 3D spatial memory、资源调度、执行监控和 runtime feedback 做真实机器人闭环。

🎯 关联：这篇最值得 Anna 看，基本是在做“Embodied AgentOS”——和 InternOS 的执行层、资源调度、状态记忆、replan 机制高度同构。

2. OmniAct：从孤立技能到日常物理自主的全模态具身 Agent

Advancing Omnimodal Embodied Agents from Isolated Skills to Everyday Physical Autonomy

🔗 https://arxiv.org/abs/2606.27251

💡 一句话：提出 planner + hierarchical memory + asynchronous visual preemption，把 cyber/API/IoT 和 physical robot action 放进一个统一执行空间。

🎯 关联：这篇的价值不在机器人 demo，而在架构判断：长期运行的 agent 不能只靠大模型，要显式拆 planning、memory、verification、preemption。

3. 长程移动 GUI Agent 的任务状态表示

A Task-State Representation for Long-Horizon Mobile GUI Agents

🔗 https://arxiv.org/abs/2607.00502

💡 一句话：用 global instruction summary、progress tracker、action verifier 把“任务状态”和“当前屏幕观察”拆开，缓解长程 GUI agent 失忆和幻觉进度。

🎯 关联：这非常贴 InternOS：agent 的执行状态不该塞在 chat history 里，而应该外置成可更新、可验证、可恢复的 task-state object。

4. ENVS：面向长程 GUI Agent 的环境原生验证搜索

ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents

🔗 https://arxiv.org/abs/2606.22948

💡 一句话：训练时直接在真实 OSWorld VM 里分支探索 GUI action，用环境 verifier 筛出成功轨迹，再反过来训练 agent。

🎯 关联：这就是 generator + verifier + environment feedback loop 的 GUI 版本；对 Anna 做 agent sandbox / execution harness 很有启发，核心是“别靠模型自嗨，必须让环境给硬反馈”。

5. VLA-Corrector：给 VLA action chunk 加 detect-and-correct 闭环

VLA-Corrector: Lightweight Detect-and-Correct Inference for Adaptive Action Horizon

🔗 https://arxiv.org/abs/2607.01804

💡 一句话：针对 VLA 一次吐多个 action 后盲执行的问题，用视觉偏差监控发现 drift，提前截断 stale actions 并触发 corrective replanning。

🎯 关联：这篇很关键：未来 agent 执行层不能是 open-loop action batch，必须有 runtime monitor 和 adaptive horizon；这和 InternOS 的承诺跟踪/中断修正机制是一类问题。

6. 先学会动，再学会做：VLA 的任务无关预训练

Learning to Move Before Learning to Do: Task-Agnostic pretraining for VLAs

🔗 https://arxiv.org/abs/2607.02466

💡 一句话：把 VLA 学习拆成“物理运动能力”和“语言任务对齐”，先用便宜的无标签交互数据学 motor prior，再用少量专家数据对齐语言。

🎯 关联：这给 agent 平台一个很明确的判断：底层执行能力和上层语义意图应该解耦训练/解耦缓存，不要所有能力都压进一个 end-to-end policy。

7. 面向变化环境的多尺度 World Model 混合专家

Multi-scale Mixture of World Models for Embodied Agents in Evolving Environments

🔗 https://arxiv.org/abs/2607.00457

💡 一句话：用 scale-aware MoE world models 处理具身 agent 在动态环境里的多尺度推理和知识更新问题。

🎯 关联：对 Anna 的启发是 memory/update policy：不同尺度的状态不应该同频刷新，低层环境细节要快忘快改，高层抽象要稳定保留。

8. Bridge-WA：预测世界在哪里、如何变化来生成机器人动作

Bridge-WA: Predicting Where and How the World Changes for Robotic Action

🔗 https://arxiv.org/abs/2607.02195

💡 一句话：不做昂贵的完整未来视频生成，而是蒸馏出 future tokens、change maps、motion-flow maps，让 VLA 更关注和动作相关的世界变化。

🎯 关联：这篇方向对 world model 很务实：agent 不一定需要“生成整个世界”，它需要的是和执行决策相关的 delta / affordance / outcome representation。

今日判断

今天的主线很清楚：embodied agent 正在从“模型会不会规划”转向“执行过程中如何维护状态、监控偏差、验证动作、触发修正”。GUI agent 和 robot agent 在架构上越来越像：都需要 task state、environment verifier、runtime monitor、memory compression。我的判断是，Anna 做 InternOS 时应该重点盯这条线——不是 VLA 本身，而是 VLA/GUI/robot 背后的通用执行操作系统：state、verifier、replan、resource scheduling、failure recovery。