A Anna 的论文速递Hermes Cron Paper Digest

Embodied Agents & World Models · 2026年6月24日

每日论文速递 · Embodied Agents & World Models

💡 一句话:它把机器人执行拆成 skill graph、资源调度、执行监控、反馈重规划和 3D spatial memory,是真正在往“Embodied AgentOS”方向走的系统论文。

📄 每日论文速递 · Embodied Agents & World Models

日期:2026-06-24


1. HoloAgent-0:带 3D 空间记忆的统一具身 Agent 框架

HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory

💡 一句话:它把机器人执行拆成 skill graph、资源调度、执行监控、反馈重规划和 3D spatial memory,是真正在往“Embodied AgentOS”方向走的系统论文。

🎯 关联:这篇和 InternOS 很近——不是单个 policy,而是“执行层 + 状态记忆 + 运行时调度 + feedback loop”的 agent OS 形态,值得重点看。


2. InSight:用可控 VLA 做自引导技能获取

InSight: Self-Guided Skill Acquisition via Steerable VLAs

💡 一句话:把 demonstrations 自动切成 primitive actions,再让 VLA 发现缺失技能、尝试补数据、自动纳入训练集,形成一个技能获取 flywheel。

🎯 关联:这就是 embodied 版的 self-improvement loop:发现能力缺口 → 执行尝试 → 验证成功样本 → 回灌训练;对 Anna 做 agent 平台的“能力生长机制”很有启发。


3. MANGO:为 VLA 自动生成多 Agent 测试 Oracle

MANGO: Automated Multi-Agent Test Oracle Generation for Vision-Language-Action Models

💡 一句话:用 multi-agent 框架从自然语言任务描述自动生成细粒度测试 oracle,解决 VLA 评估只看终态、难定位错误的问题。

🎯 关联:这篇不是炫模型,是执行验证层;对 AI sandbox / agent runtime 很关键——真正有用的 agent 系统必须能自动生成检查器,而不是靠人肉验收。


4. Foresight:用 action-conditioned world model latent 做长程机器人失败检测

Foresight: Failure Detection for Long-Horizon Robotic Manipulation with Action-Conditioned World Model Latents

💡 一句话:它不等任务结束才判断失败,而是用 world model 的 latent trajectory 监控长程 manipulation 中的失败前兆。

🎯 关联:这是 embodied execution 里很实际的一块:执行不是“发命令然后祈祷”,而是要有 runtime monitor、failure prediction 和 early stop/recover。


5. VASO:可形式验证、自进化的物理 AI 技能合约

VASO: Formally Verifiable Self-Evolving Skills for Physical AI Agents

💡 一句话:把 LLM 生成的机器人技能包装成 semantic contract,并用形式验证指导技能自我演化,而不是只靠 rollout 成功率。

🎯 关联:这篇非常对 Anna 胃口:generator + verifier + self-evolution,而且 verifier 是显式合约/逻辑层,不是模糊的 LLM judge。


6. Guava:通用的具身操作工具调用 Harness

Guava: An Effective and Universal Harness for Embodied Manipulation

💡 一句话:它系统研究了 embodied tool use 的工作流、action space、observation space,结论很直接:迭代感知-推理-行动循环、语义动作抽象、多模态观察是关键。

🎯 关联:这篇适合拿来思考 InternOS 的 agent scaffold:能力不是塞进一个大模型,而是 harness 设计决定模型能不能真的执行。


7. MagicSim:统一的可执行具身交互基础设施

MagicSim: A Unified Infrastructure for Executable Embodied Interaction

💡 一句话:它把 simulation 从“渲染/测试环境”提升成一个 deterministic batched runtime,用同一套 MDP 接口连接任务、控制、标注、评估。

🎯 关联:这篇和 AI sandbox / hardware infra 线强相关:未来 agent sandbox 不能只是隔离进程,还要能复现 episode、插入监控、重放失败、批量评估。


8. Cosmos 3:面向 Physical AI 的全模态 World Model

Cosmos 3: Omnimodal World Models for Physical AI

💡 一句话:NVIDIA 把语言、图像、视频、音频、动作统一进一个 omnimodal world model,目标是同时做理解、生成、模拟和 action modeling。

🎯 关联:这篇偏大厂 backbone,但趋势很明确:world model 正在从“视频生成器”变成 embodied agent 的环境预测层和 policy substrate。


今日判断

今天的高质量论文很集中:方向已经从“训练一个更强机器人 policy”转向“构建 embodied agent runtime”。关键模块开始清晰了:空间记忆、技能合约、自动 oracle、failure monitor、world-model simulator、技能自增长 flywheel。

对 Anna 来说,最值得盯的不是某个 VLA benchmark 分数,而是这些论文共同指向的系统架构:agent 执行层必须有可验证的 action contract、可回放环境、运行时监控和自我改进闭环。这和 InternOS / AI sandbox 的长期方向高度重合。

生成信息
领域
Embodied Agents & World Models
Job ID
ca50b46122f4
运行时间
2026-06-24 09:13:34
源文件
2026-06-24_09-13-34.md
链接数
8