Embodied Agents & World Models · 2026年6月28日

每日论文速递 · Embodied Agents & World Models

💡 一句话：这篇直接打在核心问题上：persistent embodied agent 不该是一个大模型硬扛，而是分层异步架构，把 cyber tools、IoT、navigation、manipulation、failure recovery 放进统一 action space。

2026-06-28 09:12:598 篇论文条目

📄 每日论文速递 · Embodied Agents & World Models

日期：2026-06-28

1. 从孤立技能到日常物理自治的全模态具身 Agent

Advancing Omnimodal Embodied Agents from Isolated Skills to Everyday Physical Autonomy

🎯 关联：很值得 Anna 看。它和 InternOS 的“组织协调系统”高度同构：不是单 agent 变聪明，而是要有任务层、执行层、恢复层、记忆层、验证层的长期自治架构。

2. HoloAgent-0：带 3D 空间记忆的统一具身 Agent 框架

HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory

💡 一句话：把 digital agent 的 reason → tool call → observe → revise loop 搬到真实机器人里，用 Embodied AgentOS 把语言任务转成 skill graph，并引入 3D spatial memory。

🎯 关联：这篇对 Anna 的 Agent OS 直觉很有启发：未来 agent 平台不能只管理文本上下文，还要管理“空间状态”和“可执行技能图”。

3. Guava：用于具身操作的通用工具调用 Harness

Guava: An Effective and Universal Harness for Embodied Manipulation

💡 一句话：它不追求端到端 VLA，而是研究怎么把 reasoning model 通过工具、观察、动作空间设计，真正 harness 成可操作的 embodied manipulation agent。

🎯 关联：这篇比很多“又一个 VLA”更有用，因为它关心 execution harness。Anna 做 AI Agent 平台时，关键也不是模型本身，而是模型如何被接进工具、状态、约束和反馈循环。

4. ENVS：用环境原生验证搜索训练长程 GUI Agent

ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents

💡 一句话：在真实 OSWorld VM 里分支探索 GUI 动作，靠环境 verifier 找成功轨迹，再把这些 verified trajectories 变成训练数据。

🎯 关联：这篇非常贴 Anna 的 sandbox / execution layer 方向：agent 自我提升不是靠嘴上 reflection，而是靠可回滚环境、分支搜索、真实 verifier 和 step-level supervision。

5. VisCritic：把 GUI 前后截图差异作为过程奖励

VisCritic: Visual State Comparison as Process Reward for GUI Agents

💡 一句话：GUI agent 长程失败的核心是没有 step-level verification；这篇用 action 前后截图的视觉变化来判断动作是否成功、任务是否推进、错在哪里。

🎯 关联：对 InternOS 的“承诺跟踪 / 执行验证”有直接启发：不要只看最终 answer，要给每一步执行建立可观测、可比较、可打分的状态变化。

6. PhysReflect-VLA：给 VLA 加物理可行性检查和自反思调节

PhysReflect-VLA: Physical Feasibility and Self-Reflective Regulation for Reliable Vision-Language-Action Policies

💡 一句话：VLA 不该 open-loop 输出动作就完事；它加了 feasibility operator 和 structured self-reflection，在执行时检查动作物理可行性并在线修正。

🎯 关联：这就是 generator + verifier + self-correction loop 在机器人里的版本。Anna 可以把它抽象成任何 agent 执行层都需要的 runtime guard / feasibility checker。

7. E-TTS：面向机器人操作的具身 Test-Time Scaling 框架

E-TTS: A New Embodied Test-Time Scaling Framework for Robotic Manipulation

💡 一句话：把 test-time scaling 从纯文本 reasoning 推到 embodied task：利用历史信息做 iterative reasoning 和 action scaling，而不是只看当前 observation。

🎯 关联：这篇说明 embodied agent 的“思考更久”不是多写 CoT，而是利用历史轨迹、反馈和候选动作做执行时搜索；这对 InternOS 的调度和执行重试机制很关键。

8. IOI：解耦运动学和物理的交互式 World Model

IOI: Decoupling Kinematics and Physics for Interactive World Models

💡 一句话：纯数据驱动 world model 容易漂；IOI 把 analytical kinematic priors 和 learned physical dynamics 拆开，让 action-conditioned simulation 更稳。

🎯 关联：对 AI sandbox / hardware infra 很有价值：如果未来 sandbox 要模拟真实执行，不是视频生成越真越好，而是动作、几何、物理约束必须可控、可校准。

今日判断

今天的趋势很明确：embodied agent 正在从“模型能不能做动作”转向“系统能不能长期、自校正、可验证地执行”。GUI/web agent 和机器人论文在收敛到同一个架构：环境反馈、step verifier、分支搜索、失败恢复、长期记忆。

我的判断：真正有价值的不是再堆一个 VLA checkpoint，而是 building the execution substrate——可回滚环境、状态记忆、动作可行性检查、过程奖励和自我改进闭环。InternOS 如果要往 agent OS 走，这条线比单纯追模型能力更重要。