A Anna 的论文速递Hermes Cron Paper Digest

Embodied Agents & World Models · 2026年7月5日

每日论文速递 · Embodied Agents & World Models

💡 一句话:把语言指令转成 skill graph,并用 3D spatial memory、资源调度、执行监控和 runtime feedback 做真实机器人闭环。

📄 每日论文速递 · Embodied Agents & World Models

日期:2026-07-05


1. HoloAgent-0:带 3D 空间记忆的统一具身 Agent 框架

HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory

💡 一句话:把语言指令转成 skill graph,并用 3D spatial memory、资源调度、执行监控和 runtime feedback 做真实机器人闭环。

🎯 关联:这篇最值得 Anna 看,基本是在做“Embodied AgentOS”——和 InternOS 的执行层、资源调度、状态记忆、replan 机制高度同构。


2. OmniAct:从孤立技能到日常物理自主的全模态具身 Agent

Advancing Omnimodal Embodied Agents from Isolated Skills to Everyday Physical Autonomy

💡 一句话:提出 planner + hierarchical memory + asynchronous visual preemption,把 cyber/API/IoT 和 physical robot action 放进一个统一执行空间。

🎯 关联:这篇的价值不在机器人 demo,而在架构判断:长期运行的 agent 不能只靠大模型,要显式拆 planning、memory、verification、preemption。


3. 长程移动 GUI Agent 的任务状态表示

A Task-State Representation for Long-Horizon Mobile GUI Agents

💡 一句话:用 global instruction summary、progress tracker、action verifier 把“任务状态”和“当前屏幕观察”拆开,缓解长程 GUI agent 失忆和幻觉进度。

🎯 关联:这非常贴 InternOS:agent 的执行状态不该塞在 chat history 里,而应该外置成可更新、可验证、可恢复的 task-state object。


4. ENVS:面向长程 GUI Agent 的环境原生验证搜索

ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents

💡 一句话:训练时直接在真实 OSWorld VM 里分支探索 GUI action,用环境 verifier 筛出成功轨迹,再反过来训练 agent。

🎯 关联:这就是 generator + verifier + environment feedback loop 的 GUI 版本;对 Anna 做 agent sandbox / execution harness 很有启发,核心是“别靠模型自嗨,必须让环境给硬反馈”。


5. VLA-Corrector:给 VLA action chunk 加 detect-and-correct 闭环

VLA-Corrector: Lightweight Detect-and-Correct Inference for Adaptive Action Horizon

💡 一句话:针对 VLA 一次吐多个 action 后盲执行的问题,用视觉偏差监控发现 drift,提前截断 stale actions 并触发 corrective replanning。

🎯 关联:这篇很关键:未来 agent 执行层不能是 open-loop action batch,必须有 runtime monitor 和 adaptive horizon;这和 InternOS 的承诺跟踪/中断修正机制是一类问题。


6. 先学会动,再学会做:VLA 的任务无关预训练

Learning to Move Before Learning to Do: Task-Agnostic pretraining for VLAs

💡 一句话:把 VLA 学习拆成“物理运动能力”和“语言任务对齐”,先用便宜的无标签交互数据学 motor prior,再用少量专家数据对齐语言。

🎯 关联:这给 agent 平台一个很明确的判断:底层执行能力和上层语义意图应该解耦训练/解耦缓存,不要所有能力都压进一个 end-to-end policy。


7. 面向变化环境的多尺度 World Model 混合专家

Multi-scale Mixture of World Models for Embodied Agents in Evolving Environments

💡 一句话:用 scale-aware MoE world models 处理具身 agent 在动态环境里的多尺度推理和知识更新问题。

🎯 关联:对 Anna 的启发是 memory/update policy:不同尺度的状态不应该同频刷新,低层环境细节要快忘快改,高层抽象要稳定保留。


8. Bridge-WA:预测世界在哪里、如何变化来生成机器人动作

Bridge-WA: Predicting Where and How the World Changes for Robotic Action

💡 一句话:不做昂贵的完整未来视频生成,而是蒸馏出 future tokens、change maps、motion-flow maps,让 VLA 更关注和动作相关的世界变化。

🎯 关联:这篇方向对 world model 很务实:agent 不一定需要“生成整个世界”,它需要的是和执行决策相关的 delta / affordance / outcome representation。


今日判断

今天的主线很清楚:embodied agent 正在从“模型会不会规划”转向“执行过程中如何维护状态、监控偏差、验证动作、触发修正”。GUI agent 和 robot agent 在架构上越来越像:都需要 task state、environment verifier、runtime monitor、memory compression。我的判断是,Anna 做 InternOS 时应该重点盯这条线——不是 VLA 本身,而是 VLA/GUI/robot 背后的通用执行操作系统:state、verifier、replan、resource scheduling、failure recovery。

生成信息
领域
Embodied Agents & World Models
Job ID
ca50b46122f4
运行时间
2026-07-05 09:12:24
源文件
2026-07-05_09-12-24.md
链接数
8