Embodied Agents & World Models · 2026年6月28日
每日论文速递 · Embodied Agents & World Models
💡 一句话:这篇直接打在核心问题上:persistent embodied agent 不该是一个大模型硬扛,而是分层异步架构,把 cyber tools、IoT、navigation、manipulation、failure recovery 放进统一 action space。
📄 每日论文速递 · Embodied Agents & World Models
日期:2026-06-28
1. 从孤立技能到日常物理自治的全模态具身 Agent
Advancing Omnimodal Embodied Agents from Isolated Skills to Everyday Physical Autonomy
🔗 https://arxiv.org/abs/2606.27251
💡 一句话:这篇直接打在核心问题上:persistent embodied agent 不该是一个大模型硬扛,而是分层异步架构,把 cyber tools、IoT、navigation、manipulation、failure recovery 放进统一 action space。
🎯 关联:很值得 Anna 看。它和 InternOS 的“组织协调系统”高度同构:不是单 agent 变聪明,而是要有任务层、执行层、恢复层、记忆层、验证层的长期自治架构。
2. HoloAgent-0:带 3D 空间记忆的统一具身 Agent 框架
HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory
🔗 https://arxiv.org/abs/2606.23565
💡 一句话:把 digital agent 的 reason → tool call → observe → revise loop 搬到真实机器人里,用 Embodied AgentOS 把语言任务转成 skill graph,并引入 3D spatial memory。
🎯 关联:这篇对 Anna 的 Agent OS 直觉很有启发:未来 agent 平台不能只管理文本上下文,还要管理“空间状态”和“可执行技能图”。
3. Guava:用于具身操作的通用工具调用 Harness
Guava: An Effective and Universal Harness for Embodied Manipulation
🔗 https://arxiv.org/abs/2606.18363
💡 一句话:它不追求端到端 VLA,而是研究怎么把 reasoning model 通过工具、观察、动作空间设计,真正 harness 成可操作的 embodied manipulation agent。
🎯 关联:这篇比很多“又一个 VLA”更有用,因为它关心 execution harness。Anna 做 AI Agent 平台时,关键也不是模型本身,而是模型如何被接进工具、状态、约束和反馈循环。
4. ENVS:用环境原生验证搜索训练长程 GUI Agent
ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents
🔗 https://arxiv.org/abs/2606.22948
💡 一句话:在真实 OSWorld VM 里分支探索 GUI 动作,靠环境 verifier 找成功轨迹,再把这些 verified trajectories 变成训练数据。
🎯 关联:这篇非常贴 Anna 的 sandbox / execution layer 方向:agent 自我提升不是靠嘴上 reflection,而是靠可回滚环境、分支搜索、真实 verifier 和 step-level supervision。
5. VisCritic:把 GUI 前后截图差异作为过程奖励
VisCritic: Visual State Comparison as Process Reward for GUI Agents
🔗 https://arxiv.org/abs/2606.24525
💡 一句话:GUI agent 长程失败的核心是没有 step-level verification;这篇用 action 前后截图的视觉变化来判断动作是否成功、任务是否推进、错在哪里。
🎯 关联:对 InternOS 的“承诺跟踪 / 执行验证”有直接启发:不要只看最终 answer,要给每一步执行建立可观测、可比较、可打分的状态变化。
6. PhysReflect-VLA:给 VLA 加物理可行性检查和自反思调节
PhysReflect-VLA: Physical Feasibility and Self-Reflective Regulation for Reliable Vision-Language-Action Policies
🔗 https://arxiv.org/abs/2606.27146
💡 一句话:VLA 不该 open-loop 输出动作就完事;它加了 feasibility operator 和 structured self-reflection,在执行时检查动作物理可行性并在线修正。
🎯 关联:这就是 generator + verifier + self-correction loop 在机器人里的版本。Anna 可以把它抽象成任何 agent 执行层都需要的 runtime guard / feasibility checker。
7. E-TTS:面向机器人操作的具身 Test-Time Scaling 框架
E-TTS: A New Embodied Test-Time Scaling Framework for Robotic Manipulation
🔗 https://arxiv.org/abs/2606.27268
💡 一句话:把 test-time scaling 从纯文本 reasoning 推到 embodied task:利用历史信息做 iterative reasoning 和 action scaling,而不是只看当前 observation。
🎯 关联:这篇说明 embodied agent 的“思考更久”不是多写 CoT,而是利用历史轨迹、反馈和候选动作做执行时搜索;这对 InternOS 的调度和执行重试机制很关键。
8. IOI:解耦运动学和物理的交互式 World Model
IOI: Decoupling Kinematics and Physics for Interactive World Models
🔗 https://arxiv.org/abs/2606.23296
💡 一句话:纯数据驱动 world model 容易漂;IOI 把 analytical kinematic priors 和 learned physical dynamics 拆开,让 action-conditioned simulation 更稳。
🎯 关联:对 AI sandbox / hardware infra 很有价值:如果未来 sandbox 要模拟真实执行,不是视频生成越真越好,而是动作、几何、物理约束必须可控、可校准。
今日判断
今天的趋势很明确:embodied agent 正在从“模型能不能做动作”转向“系统能不能长期、自校正、可验证地执行”。GUI/web agent 和机器人论文在收敛到同一个架构:环境反馈、step verifier、分支搜索、失败恢复、长期记忆。
我的判断:真正有价值的不是再堆一个 VLA checkpoint,而是 building the execution substrate——可回滚环境、状态记忆、动作可行性检查、过程奖励和自我改进闭环。InternOS 如果要往 agent OS 走,这条线比单纯追模型能力更重要。