A Anna 的论文速递Hermes Cron Paper Digest

Embodied Agents & World Models · 2026年7月4日

每日论文速递 · Embodied Agents & World Models

💡 一句话:把 embodied agent 拆成 typed graph 里的 perception / memory / planning / action 节点,让系统自动搜索更好的 agent 架构,而不是靠研究员手调模块连接。

📄 每日论文速递 · Embodied Agents & World Models

日期:2026-07-04


1. 自动化设计具身 Agent 架构

Automating the Design of Embodied Agent Architectures

💡 一句话:把 embodied agent 拆成 typed graph 里的 perception / memory / planning / action 节点,让系统自动搜索更好的 agent 架构,而不是靠研究员手调模块连接。

🎯 关联:这篇很贴 Anna 的 InternOS:核心不是“模型更聪明”,而是 agent 执行系统的组织结构、模块边界和可演化架构。值得看。


2. GUI Agent 到底需要什么记忆?从被动记录到主动任务状态

What Memory Do GUI Agents Really Need? From Passive Records to Active Task-Driving States

💡 一句话:长任务 GUI agent 不能只存历史截图和动作日志,必须维护“当前任务状态”:哪些信息已用、哪些还没用、哪些依赖未满足。

🎯 关联:这就是 InternOS 里的 promise / commitment / task-state tracking 问题。对 agent 平台比很多机器人 benchmark 更有启发。


3. 面向演化环境的多尺度 World Model 混合体

Multi-scale Mixture of World Models for Embodied Agents in Evolving Environments

💡 一句话:给 embodied agent 配多个不同尺度的 world model,并根据环境变化动态路由和更新,解决“世界变了但 agent 还用旧认知”的问题。

🎯 关联:对未来 agent 系统很关键:agent 不是一次性建模环境,而是持续维护多层环境模型;这和 Anna 关注的长期组织协调系统是同一个抽象。


4. OPINE-World:用交互探索合成程序化 World Model

OPINE-World: Programmatic World Modeling with Ontology-error-Prioritized Interactive Exploration

💡 一句话:让 LLM 通过交互探索和反例修正,生成可复用的程序化 world model,而不是只训练一个黑盒 transition predictor。

🎯 关联:这篇方向对 generator + verifier + self-improvement loop 很正:agent 通过环境反馈修正自己的“世界规则”,比单纯 rollout 预测更接近可验证执行层。


5. Embodied.cpp:异构机器人上的具身 AI 推理运行时

Embodied.cpp: A Portable Inference Runtime of Embodied AI Models on Heterogeneous Robots

💡 一句话:把 VLA / world-action models 的部署抽象成 C++ runtime,支持多频率闭环控制、低延迟 batch-1 推理和机器人/模拟器适配。

🎯 关联:这篇对 Anna 朋友的 AI sandbox / hardware infra 线很有用:它讨论的不是模型效果,而是 embodied model 真正落地时的 runtime contract。


6. CaP-X:机器人操作里的 Code-as-Policy Agent 框架

CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation

💡 一句话:研究 LLM/VLM 写代码控制机器人这条路线,发现当前模型强依赖人工设计的 abstraction,一旦去掉脚手架就明显掉性能。

🎯 关联:这是一个很诚实的负面信号:agent 执行层不能幻想“LLM 自动写 policy 就完事”,必须设计可组合 primitive、环境反馈和失败恢复机制。


7. WorldSample:用 World Model 做真实机器人 RL 的闭环数据增强

WorldSample: Closed-loop Real-robot RL with World Modelling

💡 一句话:把真实机器人 rollout、world-model 生成的合成 transition、policy improvement 接成闭环,降低真实交互成本。

🎯 关联:这篇的关键是 real-synthetic loop:真实执行提供校准,world model 扩展经验,policy 再改进;这是 embodied self-improvement 的标准形态。


8. Bridge-WA:预测世界哪里会变、怎么变,再指导机器人动作

Bridge-WA: Predicting Where and How the World Changes for Robotic Action

💡 一句话:不生成完整未来视频,而是蒸馏出 future tokens、change maps、motion-flow maps,让 VLA policy 关注和动作真正相关的变化。

🎯 关联:这个判断是对的:执行层不需要“漂亮视频”,需要 task-relevant future。对 InternOS 也是一样,系统状态预测要服务决策,不是服务展示。


今日判断

今天最明显的趋势:embodied agent 研究正在从“模型能不能看懂/生成动作”转向“执行系统怎么长期稳定工作”。记忆状态、world model 更新、runtime contract、闭环数据增强,都是 agent 真正落地绕不开的系统问题。

我的判断:Anna 应该重点跟踪 task-state memory + world-model correction + runtime interface 这条线,它比单纯 VLA benchmark 更接近未来 AI Agent 平台的核心壁垒。

生成信息
领域
Embodied Agents & World Models
Job ID
ca50b46122f4
运行时间
2026-07-04 09:14:14
源文件
2026-07-04_09-14-14.md
链接数
8