Embodied Agents & World Models · 2026年6月30日
每日论文速递 · Embodied Agents & World Models
💡 一句话:提出 WorldEvolver,让 world model 在部署时根据真实 action-observation mismatch 更新 memory/context,不改 agent 参数也能提升长程规划。
📄 每日论文速递 · Embodied Agents & World Models
日期:2026-06-30
1. LLM Agent 规划中的自进化世界模型
Self-Evolving World Models for LLM Agent Planning
🔗 https://arxiv.org/abs/2606.30639
💡 一句话:提出 WorldEvolver,让 world model 在部署时根据真实 action-observation mismatch 更新 memory/context,不改 agent 参数也能提升长程规划。
🎯 关联:这篇最值得看。它不是“又一个 world model”,而是把 执行反馈 → 记忆修正 → 下一轮规划 做成闭环,对 InternOS 的 task execution / verifier / memory update 机制很有启发。
2. 自动搜索具身 Agent 架构
Automating the Design of Embodied Agent Architectures
🔗 https://arxiv.org/abs/2606.30111
💡 一句话:把 embodied agent 的 perception、memory、planning、action 模块抽象成 typed graph,然后自动搜索更好的 agent architecture。
🎯 关联:这个方向很对 Anna 胃口:不是单点模型能力,而是 agent 系统结构怎么被自动生成/优化。对 InternOS 的 agent kernel、tool graph、execution loop 设计都有直接参考价值。
3. 面向具身导航的空间感知 World Action Model
Pondering the Way: Spatial-perceiving World Action Model for Embodied Navigation
🔗 https://arxiv.org/abs/2606.29908
💡 一句话:SWAM 不再先采样路线再验证,而是一次性生成中间 RGB-D 观测和动作序列,把“想象路径”和“执行动作”绑在一起。
🎯 关联:这是 embodied execution 很核心的一步:从 verifier-centric 走向 observation-action joint generation。对 future agent 的环境模拟、预执行、rollback 机制有价值。
4. 基于锚定机器人关键点的序列规划
Sequential Planning via Anchored Robotic Keypoints
🔗 https://arxiv.org/abs/2606.30613
💡 一句话:SPARK 用 neurosymbolic keypoint representation 做机器人 manipulation planning,在 LIBERO-PRO 上明显超过 code-generation agent 和 VLA baseline。
🎯 关联:它的判断很现实:机器人失败很多不是因为 LLM 不会想,而是 perception grounding 崩了。对 Anna 看 agent 执行层很关键——高层 planner 必须绑定稳定的环境锚点,否则 plan 再聪明也落不了地。
5. 用密集 Embodied Chain-of-Thought 训练 VLA 模型
Training Vision-Language-Action Models with Dense Embodied Chain-of-Thought Supervision
🔗 https://arxiv.org/abs/2606.30552
💡 一句话:ZR-0 用 dense embodied CoT 监督,把场景理解、物体识别、任务分解、动作生成这条链显式对齐到 VLA 模型里。
🎯 关联:这篇属于 VLA 泛化路线。对 Anna 的启发不是“机器人模型更大了”,而是 执行过程需要可解释的中间认知轨迹,这和 InternOS 里的 plan trace / commitment tracking 是同一类问题。
6. OpenSPM:开放环境中的空间持久记忆与闭环动作生成
OpenSPM: An Environment-Transferable Robotic Key Spatial Pose Memory and Closed-Loop High-Frequency Flow-Matching Action Generation Model
🔗 https://arxiv.org/abs/2606.29936
💡 一句话:提出 spatial pose memory + flow-matching action generation,让机器人在开放 tabletop 环境里保留关键空间状态并高频闭环控制。
🎯 关联:这篇的关键词是 spatial persistent memory。对 Anna 的 agent platform 很有借鉴:agent 不能只记文本 state,执行层需要维护可更新、可定位、可用于 control 的环境记忆。
7. VLA 的置信度驱动 Test-Time RL
Trust Your Instincts: Confidence-Driven Test-Time RL for Vision-Language-Action Models
🔗 https://arxiv.org/abs/2606.29892
💡 一句话:T²VLA 利用模型自身生成置信度作为内部评价信号,在没有外部 reward 的情况下做 test-time policy improvement。
🎯 关联:这篇和 Anna 关心的 generator + verifier + self-improvement loop 很近。它说明执行 agent 不一定永远依赖外部 evaluator,模型内部信号也可以成为轻量 verifier,但我会谨慎:confidence 很容易自嗨,必须和真实环境反馈绑定。
8. 从 Action 到 World Modeling 学习可迁移动力学先验
Learning Transferable Dynamics Priors from Action to World Modeling
🔗 https://arxiv.org/abs/2606.29501
💡 一句话:A2World 用带真实 action 标注的大规模机器人数据预训练 action-conditioned diffusion world model,学习可迁移的交互动力学。
🎯 关联:这是 robot world model 的硬核路线:不是只生成视频,而是学 action 如何改变世界。对 AI sandbox / hardware infra 的讨论也有价值,因为未来 sandbox 的核心不是渲染环境,而是可验证的 action-conditioned dynamics。
今日判断
今天很明显:方向正在从“让 VLM/VLA 看懂世界”转向“让 agent 在世界里预测、执行、失败后修正”。最值得 Anna 盯的是 WorldEvolver + AgentCanvas + SWAM 这条线,它们都在碰 agent 系统的核心问题:架构、世界模型、执行反馈闭环。
我的判断很直接:单纯 benchmark 或单纯 perception 的论文价值在下降;真正有长期价值的是能把 memory / planner / world model / verifier / action loop 接起来的工作。