Embodied Agents & World Models · 2026年6月25日

每日论文速递 · Embodied Agents & World Models

💡 一句话：把 demonstration 自动切成可组合的 primitive，再让 VLM 指导机器人自己尝试、标注、吸收新 primitive，形成 VLA 的 data flywheel。

2026-06-25 09:13:578 篇论文条目

arXiv:2606.24884 arXiv:2606.24338 arXiv:2606.24068 arXiv:2606.24101 arXiv:2606.23625 arXiv:2606.24472 arXiv:2606.23617 arXiv:2606.23754

📄 每日论文速递 · Embodied Agents & World Models

日期：2026-06-25

1. InSight：通过可 steer 的 VLA 做自主技能获取

InSight: Self-Guided Skill Acquisition via Steerable VLAs

🔗 https://arxiv.org/abs/2606.24884

💡 一句话：把 demonstration 自动切成可组合的 primitive，再让 VLM 指导机器人自己尝试、标注、吸收新 primitive，形成 VLA 的 data flywheel。

🎯 关联：今天最值得看。它不是“训练一个更强 policy”，而是在做 agent 执行层的自我扩展机制：发现缺技能 → 自主尝试 → 成功样本入库 → policy 变强，这和 InternOS 里的执行反馈 / self-improvement loop 很贴。

2. RoBoSR：用于具身机器人推理的结构化场景表示

RoBoSR: Structured Scene Representations for Embodied Robotic Reasoning

🔗 https://arxiv.org/abs/2606.24338

💡 一句话：用 object-centric scene graph 表达物体状态、空间关系、precondition/effect，让机器人做长程任务时不再只靠 prompt 硬猜。

🎯 关联：这是 embodied agent 的“任务状态机 + 世界状态表示”路线。对 Anna 的 agent platform 很有启发：如果 agent 要稳定执行复杂任务，必须有中间结构表示，而不是把所有上下文塞给 LLM。

3. ObsGraph：面向具身推理与探索的层级观测图

ObsGraph: Hierarchical Observation Representation for Embodied Reasoning and Exploration

🔗 https://arxiv.org/abs/2606.24068

💡 一句话：把环境观测组织成 room-view-object 三层图，并根据 evidence gap 决定下一步去哪里看、看什么。

🎯 关联：这篇重点不是 perception，而是 信息获取策略。对 InternOS / AI sandbox 的启发是：agent 不该被动等上下文，而要知道自己缺什么 evidence，然后主动探索补齐。

4. NavWM：用于前瞻规划的统一导航 World Model

NavWM: A Unified Navigation World Model for Foresight-Driven Planning

🔗 https://arxiv.org/abs/2606.24101

💡 一句话：把 latent world reasoning、轨迹预测、可控未来视觉生成放进一个导航 world model，让 agent 用“想象未来”做闭环路径选择。

🎯 关联：这就是 world model 对 agent 执行层最实际的价值：不是生成漂亮视频，而是给 planner 一个可评估的未来分支空间。Anna 做 agent orchestration 时可以类比成“执行前 rollout + verifier 选路”。

5. See2Act：边看边做的主动感知机器人模仿学习

Learning to See While Learning to Act: Diffusion Models for Active Perception in Robot Imitation

🔗 https://arxiv.org/abs/2606.23625

💡 一句话：机器人在遮挡环境里不只是预测动作，还会主动调整视角，先找到关键信息再执行。

🎯 关联：这篇很 agentic：感知不是固定输入，而是 action 的一部分。对 GUI/web/computer-control agent 同样成立——失败很多时候不是不会点，而是不知道该先观察哪里。

6. G³VLA：给 VLA 注入几何归纳偏置

G³VLA: Geometric inductive bias for Vision-Language-Action Models

🔗 https://arxiv.org/abs/2606.24472

💡 一句话：把相机内外参、ray embedding、跨视角几何融合接进 VLA，让模型别再把多相机画面当互不相关的 2D 图片。

🎯 关联：VLA 要进入真实执行层，空间 grounding 是硬门槛。Anna 如果思考未来 agent 的“现实接口”，这篇说明：foundation model 不能只靠语义，必须接入环境几何结构。

7. RECALL：VLA 的主动恢复经验采集与 lifelong learning

RECALL: Recovery Experience Collection for Active Lifelong Learning in Vision-Language-Action Models

🔗 https://arxiv.org/abs/2606.23617

💡 一句话：让 VLA 根据不确定性主动收集 recovery demonstrations，提高适应效率，但也暴露了 catastrophic forgetting 问题。

🎯 关联：这篇对 agent 平台很关键：self-improvement 不是“把失败样本塞回去训练”这么简单，必须处理新经验和旧能力之间的 retention/plasticity tradeoff。

8. FEARL：可验证的机器人 Foundation Model 安全架构

Verifiable Foundation Models for Robot Safety

🔗 https://arxiv.org/abs/2606.23754

💡 一句话：把大模型 controller 和小型 safety module 拆开，只验证低维安全模块，从而让 foundation-model robot policy 具备可形式化分析的安全边界。

🎯 关联：这篇和 Anna 朋友那条 AI sandbox / hardware infra 线很相关：大模型本体不可验证没关系，关键是把执行权限收口到可验证、可审计、可拦截的 safety layer。

今日判断

今天的趋势很清楚：embodied agent 正在从“端到端模仿”转向 可结构化、可探索、可自我修正的执行系统。最值得 Anna 盯的是 InSight / ObsGraph / RECALL 这条线：它们都在回答同一个问题——agent 如何知道自己缺什么、如何补经验、如何把反馈变成能力。VLA 方向也在变现实：几何 grounding、安全验证、world-model rollout 正在成为进入真实世界执行层的基础设施，不再只是 benchmark 上刷成功率。