Embodied Agents & World Models · 2026年6月23日
每日论文速递 · Embodied AI & World Models
💡 一句话:它让 VLA 从普通双摄输入中“脑补”多视角未来画面,用 world model 解决遮挡下的 manipulation,真实机器人成功率提升很明显。
📄 每日论文速递 · Embodied AI & World Models
日期:2026-06-23
1. UniviewVLA:带 World Modeling 的统一多视角 VLA 模型
UniviewVLA: A Unified Multiview Vision-Language-Action Model with World Modeling
🔗 https://arxiv.org/abs/2606.21501
💡 一句话:它让 VLA 从普通双摄输入中“脑补”多视角未来画面,用 world model 解决遮挡下的 manipulation,真实机器人成功率提升很明显。
🎯 关联:很值得看。它说明未来 agent 的执行层不会只靠当前 observation,而是会维护“可行动的未来场景假设”;这对 InternOS 里的任务执行/状态预测也有启发。
2. SemiVLA:半监督 Vision-Language-Action 适配
Semi-Supervised Vision-Language-Action Model
🔗 https://arxiv.org/abs/2606.21493
💡 一句话:只用少量带 action label 的轨迹,其余用无 action 的视觉-语言轨迹,通过 teacher-student 伪动作蒸馏提升 VLA 适配能力。
🎯 关联:核心点是“低标注成本适配新环境”。对 agent platform 来说,这就是从昂贵人工监督走向自举式执行经验学习。
3. 机器人通过人类视频动力学模型自我改进
Robot Self-Improvement via Human-Video Dynamics Models
🔗 https://arxiv.org/abs/2606.21406
💡 一句话:用人类视频学到跨 embodiment 的 action/dynamics/value 表征,再让机器人从自己的失败 rollout 中生成修正动作,成功率从 40% 拉到 81%。
🎯 关联:这是今天最该看的之一。它把“失败”变成训练资产,这和 InternOS 里的 promise tracking / execution feedback loop 是同一个思想:系统必须能从执行偏差里自我修正。
4. 关注细节的机器人 Critic
Robot Critics that Sweat the Small Stuff
🔗 https://arxiv.org/abs/2606.21572
💡 一句话:微调 VLM critic 去判断 manipulation 里非常细小的成功/失败差异,再结合 action-conditioned video model 选动作,真实任务平均成功率提升 11%。
🎯 关联:对现实世界 agent 很关键:LLM/VLM 不能只会“语义理解”,还要能做细粒度 progress verification;这直接对应 agent 平台里的 evaluator / verifier 模块。
5. SC3-Eval:用自一致视频生成评估机器人基础模型
SC3-Eval: Evaluating Robot Foundation Models via Self-Consistent Video Generation
🔗 https://arxiv.org/abs/2606.18610
💡 一句话:用 action-conditioned video world model 模拟策略 rollout,并通过 forward-inverse dynamics、跨视角一致性、test-time uncertainty 来评估 VLA policy。
🎯 关联:这是“sandbox for robots”的方向:如果现实执行太贵,就先在 world model 里跑闭环评估。Anna 跟朋友聊 AI sandbox / hardware infra 时,这篇可以作为 conceptual anchor。
6. GAM:用于机器人策略学习的几何动作模型
Geometric Action Model for Robot Policy Learning
🔗 https://arxiv.org/abs/2606.17046
💡 一句话:把 pretrained geometric foundation model 改造成语言条件下的 manipulation policy,同时做未来几何预测和 action decoding。
🎯 关联:方向很对:VLA 不能永远停在 2D token 上,contact-rich manipulation 必须吃进 3D geometry。对 embodied agent 的底层执行架构,这是比纯 VLM 更扎实的路线。
7. OneCanvas:用全景重投影做 3D 场景理解
OneCanvas: 3D Scene Understanding via Panoramic Reprojection
🔗 https://arxiv.org/abs/2606.19253
💡 一句话:把多视角 patch 根据 depth/camera pose 重投影到统一 panoramic canvas,让 VLM 像看普通图一样做 3D spatial reasoning。
🎯 关联:这篇偏 perception,但很有价值。它给了一个轻量统一空间表征的思路:不是大改模型,而是把观察组织成 agent 可用的 shared spatial coordinate system。
8. VERITAS:视觉验证驱动的推理时策略 steering 与自主改进
Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement
🔗 https://arxiv.org/abs/2606.18247
💡 一句话:把 generalist robot policy 当 generator,再配一个无需梯度的 visual verifier,在 inference-time 选更好的动作,并用验证过的自生成轨迹继续 fine-tune。
🎯 关联:这和 Robot Critics 那篇一起看:趋势非常清楚,机器人策略正在从“一次性 policy 输出”变成“generator + verifier + self-improvement loop”。
今日判断
今天的主线非常明确:VLA 正在补三个短板——遮挡下的 world modeling、低标注适配、执行结果验证。
我会 blunt 地说:单纯堆更大的 VLM/VLA 已经不是最有价值的方向了,真正有用的是闭环结构——预测未来、验证动作、从失败中更新。
这对 Anna 的 agent 系统设计也一样:未来靠谱的 agent 平台不会是“LLM 发指令”,而是 planner / executor / world model / verifier / memory 组成的持续校正系统。