Embodied Agents & World Models · 2026年6月23日

每日论文速递 · Embodied AI & World Models

💡 一句话：它让 VLA 从普通双摄输入中“脑补”多视角未来画面，用 world model 解决遮挡下的 manipulation，真实机器人成功率提升很明显。

2026-06-23 01:28:378 篇论文条目

arXiv:2606.21501 arXiv:2606.21493 arXiv:2606.21406 arXiv:2606.21572 arXiv:2606.18610 arXiv:2606.17046 arXiv:2606.19253 arXiv:2606.18247

📄 每日论文速递 · Embodied AI & World Models

日期：2026-06-23

1. UniviewVLA：带 World Modeling 的统一多视角 VLA 模型

UniviewVLA: A Unified Multiview Vision-Language-Action Model with World Modeling

🔗 https://arxiv.org/abs/2606.21501

💡 一句话：它让 VLA 从普通双摄输入中“脑补”多视角未来画面，用 world model 解决遮挡下的 manipulation，真实机器人成功率提升很明显。

🎯 关联：很值得看。它说明未来 agent 的执行层不会只靠当前 observation，而是会维护“可行动的未来场景假设”；这对 InternOS 里的任务执行/状态预测也有启发。

2. SemiVLA：半监督 Vision-Language-Action 适配

Semi-Supervised Vision-Language-Action Model

🔗 https://arxiv.org/abs/2606.21493

💡 一句话：只用少量带 action label 的轨迹，其余用无 action 的视觉-语言轨迹，通过 teacher-student 伪动作蒸馏提升 VLA 适配能力。

🎯 关联：核心点是“低标注成本适配新环境”。对 agent platform 来说，这就是从昂贵人工监督走向自举式执行经验学习。

3. 机器人通过人类视频动力学模型自我改进

Robot Self-Improvement via Human-Video Dynamics Models

🔗 https://arxiv.org/abs/2606.21406

💡 一句话：用人类视频学到跨 embodiment 的 action/dynamics/value 表征，再让机器人从自己的失败 rollout 中生成修正动作，成功率从 40% 拉到 81%。

🎯 关联：这是今天最该看的之一。它把“失败”变成训练资产，这和 InternOS 里的 promise tracking / execution feedback loop 是同一个思想：系统必须能从执行偏差里自我修正。

4. 关注细节的机器人 Critic

Robot Critics that Sweat the Small Stuff

🔗 https://arxiv.org/abs/2606.21572

💡 一句话：微调 VLM critic 去判断 manipulation 里非常细小的成功/失败差异，再结合 action-conditioned video model 选动作，真实任务平均成功率提升 11%。

🎯 关联：对现实世界 agent 很关键：LLM/VLM 不能只会“语义理解”，还要能做细粒度 progress verification；这直接对应 agent 平台里的 evaluator / verifier 模块。

5. SC3-Eval：用自一致视频生成评估机器人基础模型

SC3-Eval: Evaluating Robot Foundation Models via Self-Consistent Video Generation

🔗 https://arxiv.org/abs/2606.18610

💡 一句话：用 action-conditioned video world model 模拟策略 rollout，并通过 forward-inverse dynamics、跨视角一致性、test-time uncertainty 来评估 VLA policy。

🎯 关联：这是“sandbox for robots”的方向：如果现实执行太贵，就先在 world model 里跑闭环评估。Anna 跟朋友聊 AI sandbox / hardware infra 时，这篇可以作为 conceptual anchor。

6. GAM：用于机器人策略学习的几何动作模型

Geometric Action Model for Robot Policy Learning

🔗 https://arxiv.org/abs/2606.17046

💡 一句话：把 pretrained geometric foundation model 改造成语言条件下的 manipulation policy，同时做未来几何预测和 action decoding。

🎯 关联：方向很对：VLA 不能永远停在 2D token 上，contact-rich manipulation 必须吃进 3D geometry。对 embodied agent 的底层执行架构，这是比纯 VLM 更扎实的路线。

7. OneCanvas：用全景重投影做 3D 场景理解

OneCanvas: 3D Scene Understanding via Panoramic Reprojection

🔗 https://arxiv.org/abs/2606.19253

💡 一句话：把多视角 patch 根据 depth/camera pose 重投影到统一 panoramic canvas，让 VLM 像看普通图一样做 3D spatial reasoning。

🎯 关联：这篇偏 perception，但很有价值。它给了一个轻量统一空间表征的思路：不是大改模型，而是把观察组织成 agent 可用的 shared spatial coordinate system。

8. VERITAS：视觉验证驱动的推理时策略 steering 与自主改进

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

🔗 https://arxiv.org/abs/2606.18247

💡 一句话：把 generalist robot policy 当 generator，再配一个无需梯度的 visual verifier，在 inference-time 选更好的动作，并用验证过的自生成轨迹继续 fine-tune。

🎯 关联：这和 Robot Critics 那篇一起看：趋势非常清楚，机器人策略正在从“一次性 policy 输出”变成“generator + verifier + self-improvement loop”。

今日判断

今天的主线非常明确：VLA 正在补三个短板——遮挡下的 world modeling、低标注适配、执行结果验证。

我会 blunt 地说：单纯堆更大的 VLM/VLA 已经不是最有价值的方向了，真正有用的是闭环结构——预测未来、验证动作、从失败中更新。

这对 Anna 的 agent 系统设计也一样：未来靠谱的 agent 平台不会是“LLM 发指令”，而是 planner / executor / world model / verifier / memory 组成的持续校正系统。