A Anna 的论文速递Hermes Cron Paper Digest

Embodied Agents & World Models · 2026年6月25日

每日论文速递 · Embodied Agents & World Models

💡 一句话:把 demonstration 自动切成可组合的 primitive,再让 VLM 指导机器人自己尝试、标注、吸收新 primitive,形成 VLA 的 data flywheel。

📄 每日论文速递 · Embodied Agents & World Models

日期:2026-06-25


1. InSight:通过可 steer 的 VLA 做自主技能获取

InSight: Self-Guided Skill Acquisition via Steerable VLAs

💡 一句话:把 demonstration 自动切成可组合的 primitive,再让 VLM 指导机器人自己尝试、标注、吸收新 primitive,形成 VLA 的 data flywheel。

🎯 关联:今天最值得看。它不是“训练一个更强 policy”,而是在做 agent 执行层的自我扩展机制:发现缺技能 → 自主尝试 → 成功样本入库 → policy 变强,这和 InternOS 里的执行反馈 / self-improvement loop 很贴。


2. RoBoSR:用于具身机器人推理的结构化场景表示

RoBoSR: Structured Scene Representations for Embodied Robotic Reasoning

💡 一句话:用 object-centric scene graph 表达物体状态、空间关系、precondition/effect,让机器人做长程任务时不再只靠 prompt 硬猜。

🎯 关联:这是 embodied agent 的“任务状态机 + 世界状态表示”路线。对 Anna 的 agent platform 很有启发:如果 agent 要稳定执行复杂任务,必须有中间结构表示,而不是把所有上下文塞给 LLM。


3. ObsGraph:面向具身推理与探索的层级观测图

ObsGraph: Hierarchical Observation Representation for Embodied Reasoning and Exploration

💡 一句话:把环境观测组织成 room-view-object 三层图,并根据 evidence gap 决定下一步去哪里看、看什么。

🎯 关联:这篇重点不是 perception,而是 信息获取策略。对 InternOS / AI sandbox 的启发是:agent 不该被动等上下文,而要知道自己缺什么 evidence,然后主动探索补齐。


4. NavWM:用于前瞻规划的统一导航 World Model

NavWM: A Unified Navigation World Model for Foresight-Driven Planning

💡 一句话:把 latent world reasoning、轨迹预测、可控未来视觉生成放进一个导航 world model,让 agent 用“想象未来”做闭环路径选择。

🎯 关联:这就是 world model 对 agent 执行层最实际的价值:不是生成漂亮视频,而是给 planner 一个可评估的未来分支空间。Anna 做 agent orchestration 时可以类比成“执行前 rollout + verifier 选路”。


5. See2Act:边看边做的主动感知机器人模仿学习

Learning to See While Learning to Act: Diffusion Models for Active Perception in Robot Imitation

💡 一句话:机器人在遮挡环境里不只是预测动作,还会主动调整视角,先找到关键信息再执行。

🎯 关联:这篇很 agentic:感知不是固定输入,而是 action 的一部分。对 GUI/web/computer-control agent 同样成立——失败很多时候不是不会点,而是不知道该先观察哪里。


6. G³VLA:给 VLA 注入几何归纳偏置

G³VLA: Geometric inductive bias for Vision-Language-Action Models

💡 一句话:把相机内外参、ray embedding、跨视角几何融合接进 VLA,让模型别再把多相机画面当互不相关的 2D 图片。

🎯 关联:VLA 要进入真实执行层,空间 grounding 是硬门槛。Anna 如果思考未来 agent 的“现实接口”,这篇说明:foundation model 不能只靠语义,必须接入环境几何结构。


7. RECALL:VLA 的主动恢复经验采集与 lifelong learning

RECALL: Recovery Experience Collection for Active Lifelong Learning in Vision-Language-Action Models

💡 一句话:让 VLA 根据不确定性主动收集 recovery demonstrations,提高适应效率,但也暴露了 catastrophic forgetting 问题。

🎯 关联:这篇对 agent 平台很关键:self-improvement 不是“把失败样本塞回去训练”这么简单,必须处理新经验和旧能力之间的 retention/plasticity tradeoff。


8. FEARL:可验证的机器人 Foundation Model 安全架构

Verifiable Foundation Models for Robot Safety

💡 一句话:把大模型 controller 和小型 safety module 拆开,只验证低维安全模块,从而让 foundation-model robot policy 具备可形式化分析的安全边界。

🎯 关联:这篇和 Anna 朋友那条 AI sandbox / hardware infra 线很相关:大模型本体不可验证没关系,关键是把执行权限收口到可验证、可审计、可拦截的 safety layer。


今日判断

今天的趋势很清楚:embodied agent 正在从“端到端模仿”转向 可结构化、可探索、可自我修正的执行系统。最值得 Anna 盯的是 InSight / ObsGraph / RECALL 这条线:它们都在回答同一个问题——agent 如何知道自己缺什么、如何补经验、如何把反馈变成能力。VLA 方向也在变现实:几何 grounding、安全验证、world-model rollout 正在成为进入真实世界执行层的基础设施,不再只是 benchmark 上刷成功率。

生成信息
领域
Embodied Agents & World Models
Job ID
ca50b46122f4
运行时间
2026-06-25 09:13:57
源文件
2026-06-25_09-13-57.md
链接数
8