Embodied Agents & World Models · 2026年6月24日

每日论文速递 · Embodied Agents & World Models

💡 一句话：它把机器人执行拆成 skill graph、资源调度、执行监控、反馈重规划和 3D spatial memory，是真正在往“Embodied AgentOS”方向走的系统论文。

2026-06-24 09:13:348 篇论文条目

arXiv:2606.23565 arXiv:2606.24884 arXiv:2606.24815 arXiv:2606.23085 arXiv:2606.05395 arXiv:2606.18363 arXiv:2606.17511 arXiv:2606.02800

📄 每日论文速递 · Embodied Agents & World Models

日期：2026-06-24

1. HoloAgent-0：带 3D 空间记忆的统一具身 Agent 框架

HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory

🔗 https://arxiv.org/abs/2606.23565

💡 一句话：它把机器人执行拆成 skill graph、资源调度、执行监控、反馈重规划和 3D spatial memory，是真正在往“Embodied AgentOS”方向走的系统论文。

🎯 关联：这篇和 InternOS 很近——不是单个 policy，而是“执行层 + 状态记忆 + 运行时调度 + feedback loop”的 agent OS 形态，值得重点看。

2. InSight：用可控 VLA 做自引导技能获取

InSight: Self-Guided Skill Acquisition via Steerable VLAs

🔗 https://arxiv.org/abs/2606.24884

💡 一句话：把 demonstrations 自动切成 primitive actions，再让 VLA 发现缺失技能、尝试补数据、自动纳入训练集，形成一个技能获取 flywheel。

🎯 关联：这就是 embodied 版的 self-improvement loop：发现能力缺口 → 执行尝试 → 验证成功样本 → 回灌训练；对 Anna 做 agent 平台的“能力生长机制”很有启发。

3. MANGO：为 VLA 自动生成多 Agent 测试 Oracle

MANGO: Automated Multi-Agent Test Oracle Generation for Vision-Language-Action Models

🔗 https://arxiv.org/abs/2606.24815

💡 一句话：用 multi-agent 框架从自然语言任务描述自动生成细粒度测试 oracle，解决 VLA 评估只看终态、难定位错误的问题。

🎯 关联：这篇不是炫模型，是执行验证层；对 AI sandbox / agent runtime 很关键——真正有用的 agent 系统必须能自动生成检查器，而不是靠人肉验收。

4. Foresight：用 action-conditioned world model latent 做长程机器人失败检测

Foresight: Failure Detection for Long-Horizon Robotic Manipulation with Action-Conditioned World Model Latents

🔗 https://arxiv.org/abs/2606.23085

💡 一句话：它不等任务结束才判断失败，而是用 world model 的 latent trajectory 监控长程 manipulation 中的失败前兆。

🎯 关联：这是 embodied execution 里很实际的一块：执行不是“发命令然后祈祷”，而是要有 runtime monitor、failure prediction 和 early stop/recover。

5. VASO：可形式验证、自进化的物理 AI 技能合约

VASO: Formally Verifiable Self-Evolving Skills for Physical AI Agents

🔗 https://arxiv.org/abs/2606.05395

💡 一句话：把 LLM 生成的机器人技能包装成 semantic contract，并用形式验证指导技能自我演化，而不是只靠 rollout 成功率。

🎯 关联：这篇非常对 Anna 胃口：generator + verifier + self-evolution，而且 verifier 是显式合约/逻辑层，不是模糊的 LLM judge。

6. Guava：通用的具身操作工具调用 Harness

Guava: An Effective and Universal Harness for Embodied Manipulation

🔗 https://arxiv.org/abs/2606.18363

💡 一句话：它系统研究了 embodied tool use 的工作流、action space、observation space，结论很直接：迭代感知-推理-行动循环、语义动作抽象、多模态观察是关键。

🎯 关联：这篇适合拿来思考 InternOS 的 agent scaffold：能力不是塞进一个大模型，而是 harness 设计决定模型能不能真的执行。

7. MagicSim：统一的可执行具身交互基础设施

MagicSim: A Unified Infrastructure for Executable Embodied Interaction

🔗 https://arxiv.org/abs/2606.17511

💡 一句话：它把 simulation 从“渲染/测试环境”提升成一个 deterministic batched runtime，用同一套 MDP 接口连接任务、控制、标注、评估。

🎯 关联：这篇和 AI sandbox / hardware infra 线强相关：未来 agent sandbox 不能只是隔离进程，还要能复现 episode、插入监控、重放失败、批量评估。

8. Cosmos 3：面向 Physical AI 的全模态 World Model

Cosmos 3: Omnimodal World Models for Physical AI

🔗 https://arxiv.org/abs/2606.02800

💡 一句话：NVIDIA 把语言、图像、视频、音频、动作统一进一个 omnimodal world model，目标是同时做理解、生成、模拟和 action modeling。

🎯 关联：这篇偏大厂 backbone，但趋势很明确：world model 正在从“视频生成器”变成 embodied agent 的环境预测层和 policy substrate。

今日判断

今天的高质量论文很集中：方向已经从“训练一个更强机器人 policy”转向“构建 embodied agent runtime”。关键模块开始清晰了：空间记忆、技能合约、自动 oracle、failure monitor、world-model simulator、技能自增长 flywheel。

对 Anna 来说，最值得盯的不是某个 VLA benchmark 分数，而是这些论文共同指向的系统架构：agent 执行层必须有可验证的 action contract、可回放环境、运行时监控和自我改进闭环。这和 InternOS / AI sandbox 的长期方向高度重合。