Embodied Agents & World Models · 2026年6月30日

每日论文速递 · Embodied Agents & World Models

💡 一句话：提出 WorldEvolver，让 world model 在部署时根据真实 action-observation mismatch 更新 memory/context，不改 agent 参数也能提升长程规划。

2026-06-30 09:13:128 篇论文条目

arXiv:2606.30639 arXiv:2606.30111 arXiv:2606.29908 arXiv:2606.30613 arXiv:2606.30552 arXiv:2606.29936 arXiv:2606.29892 arXiv:2606.29501

📄 每日论文速递 · Embodied Agents & World Models

日期：2026-06-30

1. LLM Agent 规划中的自进化世界模型

Self-Evolving World Models for LLM Agent Planning

🔗 https://arxiv.org/abs/2606.30639

💡 一句话：提出 WorldEvolver，让 world model 在部署时根据真实 action-observation mismatch 更新 memory/context，不改 agent 参数也能提升长程规划。

🎯 关联：这篇最值得看。它不是“又一个 world model”，而是把 执行反馈 → 记忆修正 → 下一轮规划 做成闭环，对 InternOS 的 task execution / verifier / memory update 机制很有启发。

2. 自动搜索具身 Agent 架构

Automating the Design of Embodied Agent Architectures

🔗 https://arxiv.org/abs/2606.30111

💡 一句话：把 embodied agent 的 perception、memory、planning、action 模块抽象成 typed graph，然后自动搜索更好的 agent architecture。

🎯 关联：这个方向很对 Anna 胃口：不是单点模型能力，而是 agent 系统结构怎么被自动生成/优化。对 InternOS 的 agent kernel、tool graph、execution loop 设计都有直接参考价值。

3. 面向具身导航的空间感知 World Action Model

Pondering the Way: Spatial-perceiving World Action Model for Embodied Navigation

🔗 https://arxiv.org/abs/2606.29908

💡 一句话：SWAM 不再先采样路线再验证，而是一次性生成中间 RGB-D 观测和动作序列，把“想象路径”和“执行动作”绑在一起。

🎯 关联：这是 embodied execution 很核心的一步：从 verifier-centric 走向 observation-action joint generation。对 future agent 的环境模拟、预执行、rollback 机制有价值。

4. 基于锚定机器人关键点的序列规划

Sequential Planning via Anchored Robotic Keypoints

🔗 https://arxiv.org/abs/2606.30613

💡 一句话：SPARK 用 neurosymbolic keypoint representation 做机器人 manipulation planning，在 LIBERO-PRO 上明显超过 code-generation agent 和 VLA baseline。

🎯 关联：它的判断很现实：机器人失败很多不是因为 LLM 不会想，而是 perception grounding 崩了。对 Anna 看 agent 执行层很关键——高层 planner 必须绑定稳定的环境锚点，否则 plan 再聪明也落不了地。

5. 用密集 Embodied Chain-of-Thought 训练 VLA 模型

Training Vision-Language-Action Models with Dense Embodied Chain-of-Thought Supervision

🔗 https://arxiv.org/abs/2606.30552

💡 一句话：ZR-0 用 dense embodied CoT 监督，把场景理解、物体识别、任务分解、动作生成这条链显式对齐到 VLA 模型里。

🎯 关联：这篇属于 VLA 泛化路线。对 Anna 的启发不是“机器人模型更大了”，而是 执行过程需要可解释的中间认知轨迹，这和 InternOS 里的 plan trace / commitment tracking 是同一类问题。

6. OpenSPM：开放环境中的空间持久记忆与闭环动作生成

OpenSPM: An Environment-Transferable Robotic Key Spatial Pose Memory and Closed-Loop High-Frequency Flow-Matching Action Generation Model

🔗 https://arxiv.org/abs/2606.29936

💡 一句话：提出 spatial pose memory + flow-matching action generation，让机器人在开放 tabletop 环境里保留关键空间状态并高频闭环控制。

🎯 关联：这篇的关键词是 spatial persistent memory。对 Anna 的 agent platform 很有借鉴：agent 不能只记文本 state，执行层需要维护可更新、可定位、可用于 control 的环境记忆。

7. VLA 的置信度驱动 Test-Time RL

Trust Your Instincts: Confidence-Driven Test-Time RL for Vision-Language-Action Models

🔗 https://arxiv.org/abs/2606.29892

💡 一句话：T²VLA 利用模型自身生成置信度作为内部评价信号，在没有外部 reward 的情况下做 test-time policy improvement。

🎯 关联：这篇和 Anna 关心的 generator + verifier + self-improvement loop 很近。它说明执行 agent 不一定永远依赖外部 evaluator，模型内部信号也可以成为轻量 verifier，但我会谨慎：confidence 很容易自嗨，必须和真实环境反馈绑定。

8. 从 Action 到 World Modeling 学习可迁移动力学先验

Learning Transferable Dynamics Priors from Action to World Modeling

🔗 https://arxiv.org/abs/2606.29501

💡 一句话：A2World 用带真实 action 标注的大规模机器人数据预训练 action-conditioned diffusion world model，学习可迁移的交互动力学。

🎯 关联：这是 robot world model 的硬核路线：不是只生成视频，而是学 action 如何改变世界。对 AI sandbox / hardware infra 的讨论也有价值，因为未来 sandbox 的核心不是渲染环境，而是可验证的 action-conditioned dynamics。

今日判断

今天很明显：方向正在从“让 VLM/VLA 看懂世界”转向“让 agent 在世界里预测、执行、失败后修正”。最值得 Anna 盯的是 WorldEvolver + AgentCanvas + SWAM 这条线，它们都在碰 agent 系统的核心问题：架构、世界模型、执行反馈闭环。

我的判断很直接：单纯 benchmark 或单纯 perception 的论文价值在下降；真正有长期价值的是能把 memory / planner / world model / verifier / action loop 接起来的工作。