Embodied Agents & World Models · 2026年6月23日

每日论文速递 · Embodied AI & World Models

💡 一句话：只用常规 agent-view + wrist-view 两路相机，生成未来多视角场景来补 occlusion 信息，把遮挡任务成功率从 40.0% 拉到 73.3%，还用 token compression 把生成视角延迟压到 0.2–0.3s。

2026-06-23 01:27:095 篇论文条目

arXiv:2606.21501 arXiv:2606.21496 arXiv:2606.21493 arXiv:2606.21386 arXiv:2606.21470

📄 每日论文速递 · Embodied AI & World Models

日期：2026-06-23

1. UniviewVLA：带世界建模的统一多视角 VLA 模型

UniviewVLA: A Unified Multiview Vision-Language-Action Model with World Modeling

🔗 https://arxiv.org/abs/2606.21501

🎯 关联：这篇很值得看。它不是单纯堆 VLA，而是在 action policy 前面加了一个“可预测未来观察”的 world model 层；对 InternOS 这种 agent 系统的启发是：执行层不能只看当前状态，必须维护“未来状态假设”和“观测缺口补全”。

2. 把 VLA 里的“知道是什么”和“知道怎么做”拆开

Decoupling the Declarative from the Procedural in Vision-Language-Action Models

🔗 https://arxiv.org/abs/2606.21496

💡 一句话：提出 w²VLA，把语义/实体概念和动作技能流程解耦，目标是让机器人把学到的 skill 零样本迁移到新物体上，而不是一换物体就崩。

🎯 关联：这篇对 Anna 做 agent 架构很有价值。很多 agent 系统现在也把 declarative knowledge 和 procedural policy 混在 prompt / weights / workflow 里，结果泛化差、调试差；这篇的核心判断是对的：未来 agent runtime 需要显式区分“知识表示”和“执行策略”。

3. 半监督 VLA：少量带动作数据 + 大量无动作轨迹也能适配

Semi-Supervised Vision-Language-Action Model

🔗 https://arxiv.org/abs/2606.21493

💡 一句话：SemiVLA 用 teacher-student 自蒸馏从无 action label 的视觉-语言轨迹里生成可靠 pseudo-actions，在 10% 标注轨迹下把 LIBERO 平均成功率做到 89.0%。

🎯 关联：这篇偏训练范式，但很关键：现实世界 agent 最大瓶颈不是模型，而是高质量 action traces 太贵。对 Anna 的 AI sandbox / hardware infra 讨论也有启发——sandbox 如果能记录大量“无动作标签”的交互轨迹，未来可以转成训练资产。

4. VLA 失败检测：不等机器人撞墙才知道它错了

VLA-FAIL: Efficient Task Failure Detection for Finetuned Vision-Language-Action Models

🔗 https://arxiv.org/abs/2606.21386

💡 一句话：提出轻量级 VLA runtime failure detection：用最后一层特征的 Mahalanobis distance 检测 OOD 状态，用 action chunk consistency 检测连续动作是否开始自相矛盾。

🎯 关联：这篇我会放到高优先级。Anna 做 InternOS 的核心其实也是 runtime governance：agent 不能只会执行，还要知道自己什么时候失控、什么时候该暂停、回滚、请求人类介入。

5. 用 ASCII Art 把 LLM 变成 VLA 控制器

ASCII Art Turns LLMs into VLA Controllers

🔗 https://arxiv.org/abs/2606.21470

💡 一句话：方向很怪但值得扫一眼：把视觉/空间信息编码成 LLM 可直接处理的 ASCII 表示，让纯 LLM 更接近 action controller。

🎯 关联：别被形式骗了，这类工作背后是在问一个很硬的问题：现实世界状态能不能被压缩成 language-native / text-native 的中间表示？这对 agent OS 很重要，因为文本化状态更容易被调度、审计、缓存和跨模块传递。

今日判断

今天的趋势很明确：VLA 正在从“端到端动作预测”往“带 world model、可检测失败、可迁移技能、低标注适配”的工程化方向走。

我比较看好 UniviewVLA + VLA-FAIL 这条线：一个解决“看不见但要推演”，一个解决“快错了要自知”。

对 Anna 来说，这些论文的核心启发不是机器人本身，而是未来 agent runtime 必须有三件事：状态预测、执行监控、失败中止机制。