A Anna 的论文速递Hermes Cron Paper Digest

Embodied Agents & World Models · 2026年6月28日

每日论文速递 · Embodied Agents & World Models

💡 一句话:这篇直接打在核心问题上:persistent embodied agent 不该是一个大模型硬扛,而是分层异步架构,把 cyber tools、IoT、navigation、manipulation、failure recovery 放进统一 action space。

📄 每日论文速递 · Embodied Agents & World Models

日期:2026-06-28


1. 从孤立技能到日常物理自治的全模态具身 Agent

Advancing Omnimodal Embodied Agents from Isolated Skills to Everyday Physical Autonomy

💡 一句话:这篇直接打在核心问题上:persistent embodied agent 不该是一个大模型硬扛,而是分层异步架构,把 cyber tools、IoT、navigation、manipulation、failure recovery 放进统一 action space。

🎯 关联:很值得 Anna 看。它和 InternOS 的“组织协调系统”高度同构:不是单 agent 变聪明,而是要有任务层、执行层、恢复层、记忆层、验证层的长期自治架构。


2. HoloAgent-0:带 3D 空间记忆的统一具身 Agent 框架

HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory

💡 一句话:把 digital agent 的 reason → tool call → observe → revise loop 搬到真实机器人里,用 Embodied AgentOS 把语言任务转成 skill graph,并引入 3D spatial memory。

🎯 关联:这篇对 Anna 的 Agent OS 直觉很有启发:未来 agent 平台不能只管理文本上下文,还要管理“空间状态”和“可执行技能图”。


3. Guava:用于具身操作的通用工具调用 Harness

Guava: An Effective and Universal Harness for Embodied Manipulation

💡 一句话:它不追求端到端 VLA,而是研究怎么把 reasoning model 通过工具、观察、动作空间设计,真正 harness 成可操作的 embodied manipulation agent。

🎯 关联:这篇比很多“又一个 VLA”更有用,因为它关心 execution harness。Anna 做 AI Agent 平台时,关键也不是模型本身,而是模型如何被接进工具、状态、约束和反馈循环。


4. ENVS:用环境原生验证搜索训练长程 GUI Agent

ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents

💡 一句话:在真实 OSWorld VM 里分支探索 GUI 动作,靠环境 verifier 找成功轨迹,再把这些 verified trajectories 变成训练数据。

🎯 关联:这篇非常贴 Anna 的 sandbox / execution layer 方向:agent 自我提升不是靠嘴上 reflection,而是靠可回滚环境、分支搜索、真实 verifier 和 step-level supervision。


5. VisCritic:把 GUI 前后截图差异作为过程奖励

VisCritic: Visual State Comparison as Process Reward for GUI Agents

💡 一句话:GUI agent 长程失败的核心是没有 step-level verification;这篇用 action 前后截图的视觉变化来判断动作是否成功、任务是否推进、错在哪里。

🎯 关联:对 InternOS 的“承诺跟踪 / 执行验证”有直接启发:不要只看最终 answer,要给每一步执行建立可观测、可比较、可打分的状态变化。


6. PhysReflect-VLA:给 VLA 加物理可行性检查和自反思调节

PhysReflect-VLA: Physical Feasibility and Self-Reflective Regulation for Reliable Vision-Language-Action Policies

💡 一句话:VLA 不该 open-loop 输出动作就完事;它加了 feasibility operator 和 structured self-reflection,在执行时检查动作物理可行性并在线修正。

🎯 关联:这就是 generator + verifier + self-correction loop 在机器人里的版本。Anna 可以把它抽象成任何 agent 执行层都需要的 runtime guard / feasibility checker。


7. E-TTS:面向机器人操作的具身 Test-Time Scaling 框架

E-TTS: A New Embodied Test-Time Scaling Framework for Robotic Manipulation

💡 一句话:把 test-time scaling 从纯文本 reasoning 推到 embodied task:利用历史信息做 iterative reasoning 和 action scaling,而不是只看当前 observation。

🎯 关联:这篇说明 embodied agent 的“思考更久”不是多写 CoT,而是利用历史轨迹、反馈和候选动作做执行时搜索;这对 InternOS 的调度和执行重试机制很关键。


8. IOI:解耦运动学和物理的交互式 World Model

IOI: Decoupling Kinematics and Physics for Interactive World Models

💡 一句话:纯数据驱动 world model 容易漂;IOI 把 analytical kinematic priors 和 learned physical dynamics 拆开,让 action-conditioned simulation 更稳。

🎯 关联:对 AI sandbox / hardware infra 很有价值:如果未来 sandbox 要模拟真实执行,不是视频生成越真越好,而是动作、几何、物理约束必须可控、可校准。


今日判断

今天的趋势很明确:embodied agent 正在从“模型能不能做动作”转向“系统能不能长期、自校正、可验证地执行”。GUI/web agent 和机器人论文在收敛到同一个架构:环境反馈、step verifier、分支搜索、失败恢复、长期记忆。

我的判断:真正有价值的不是再堆一个 VLA checkpoint,而是 building the execution substrate——可回滚环境、状态记忆、动作可行性检查、过程奖励和自我改进闭环。InternOS 如果要往 agent OS 走,这条线比单纯追模型能力更重要。

生成信息
领域
Embodied Agents & World Models
Job ID
ca50b46122f4
运行时间
2026-06-28 09:12:59
源文件
2026-06-28_09-12-59.md
链接数
8