Embodied Agents & World Models · 2026年6月23日
每日论文速递 · Embodied Agents & World Models
💡 一句话:这篇直接把 LLM agent 的“状态理解 → 工具调用 → 反馈检查 → 重规划”闭环搬到真实机器人上,用 Embodied AgentOS + 3D spatial memory + skills 组织真实硬件执行。
📄 每日论文速递 · Embodied Agents & World Models
日期:2026-06-23
1. HoloAgent-0:带 3D 空间记忆的统一具身 Agent 框架
HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory
🔗 https://arxiv.org/abs/2606.23565
💡 一句话:这篇直接把 LLM agent 的“状态理解 → 工具调用 → 反馈检查 → 重规划”闭环搬到真实机器人上,用 Embodied AgentOS + 3D spatial memory + skills 组织真实硬件执行。
🎯 关联:今天最值得看。它的 Embodied AgentOS 很像 InternOS 在物理世界里的版本:任务图、资源调度、执行监控、clarification/re-planning,都对 Anna 做 agent 平台和执行层很有参考价值。
2. ENVS:面向长程 GUI Agent 的环境原生验证搜索
ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents
🔗 https://arxiv.org/abs/2606.22948
💡 一句话:它不是靠人工标注教 GUI agent,而是在真实 OSWorld VM 里分支探索、验证成功轨迹,再把 verified supervision 拿来训练。
🎯 关联:非常贴 Anna 的 generator + verifier + environment feedback loop。这个方向比“堆更强 VLM”更重要:agent 系统真正的瓶颈是可验证执行数据怎么从环境里长出来。
3. MobileForge:无标注适配移动 GUI Agent 的分层反馈策略优化
MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization
🔗 https://arxiv.org/abs/2606.19930
💡 一句话:用真实 mobile app 交互生成任务、执行 rollout、收集 trajectory/outcome/step feedback,再做 step-level GRPO,让 GUI agent 自己适配目标 app。
🎯 关联:这篇对 AI sandbox / agent infra 很关键:它把“环境、任务生成、反馈、训练”做成闭环 substrate,而不是孤立 benchmark。Anna 如果设计 agent runtime,应该盯这种 data flywheel。
4. MemGUI-Agent:带主动上下文管理的长程移动 GUI Agent
MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management
🔗 https://arxiv.org/abs/2606.19926
💡 一句话:把 context management 变成 agent 可执行的 action,而不是 ReAct 那种被动堆历史,解决长程 GUI 任务里的记忆爆炸和关键信息稀释。
🎯 关联:这篇对 InternOS 的“组织协调系统”启发很直接:memory/context 不是日志,是执行态的一部分;系统要允许 agent 主动压缩、折叠、维护工作状态。
5. IOI:解耦运动学和物理的交互式 World Model
IOI: Decoupling Kinematics and Physics for Interactive World Models
🔗 https://arxiv.org/abs/2606.23296
💡 一句话:它把确定性的 forward kinematics 和学习式物理视频生成拆开,让 world model 既能对齐动作控制,又能生成物理反馈,并可作为 policy evaluator。
🎯 关联:这篇对 sandbox/hardware infra 很有价值。未来 agent sandbox 不能只是“跑代码”,还要有可交互、可验证、可回放的环境模型;IOI 是物理版 execution simulator 的好样子。
6. LaST-HD:从大规模人手数据学习机器人操作的潜在物理推理
LaST-HD: Learning Latent Physical Reasoning from Scalable Human Data for Robot Manipulation
🔗 https://arxiv.org/abs/2606.23685
💡 一句话:它用 action-conditioned world model 把人手示教和机器人轨迹对齐到同一个 latent dynamics space,减少单纯模仿人体运动带来的 embodiment mismatch。
🎯 关联:核心点不是 glove,而是“跨 embodiment 的 latent reasoning space”。这对 Anna 思考 agent 执行层很有启发:不同工具/机器人/环境之间,需要共享的是意图和动态模型,不是表面动作序列。
7. RECALL:面向 VLA 的主动终身学习恢复经验收集
RECALL: Recovery Experience Collection for Active Lifelong Learning in Vision-Language-Action Models
🔗 https://arxiv.org/abs/2606.23617
💡 一句话:它让 VLA 在不确定或失败边界主动收集 recovery demonstrations,而不是等整段任务失败后再被动补数据。
🎯 关联:这篇很适合映射到 agent 平台:失败不是 binary outcome,而是应该在执行中定位“哪个状态需要监督/恢复”。InternOS 里的执行监控、失败归因、经验沉淀都可以借这个思路。
8. eMEM:面向具身 Agent 的混合时空记忆系统
eMEM: A Hybrid Spatio-Temporal Memory System For Embodied Agents
🔗 https://arxiv.org/abs/2606.03374
💡 一句话:它把 embodied memory 做成语义、空间、时间三种索引统一的图结构,并暴露成 agent 可调用的 recall tools。
🎯 关联:这篇不是炫模型,是系统设计。Anna 做 agent memory / InternOS 状态管理时,可以重点看它的 multi-index memory:text RAG 不够,执行型 agent 需要 location-aware、time-aware、task-aware 的记忆。
今日判断
今天的趋势很清楚:agent 研究正在从“模型会不会推理”转向“系统怎么在环境里执行、验证、恢复、积累经验”。GUI agent 和 embodied robot 两条线开始收敛:都在做 verified search、active feedback、structured memory、world model simulator。
我的判断:未来真正有壁垒的不是单个 VLA/MLLM policy,而是 环境反馈闭环 + 可验证轨迹生成 + 执行态记忆 + recovery data flywheel。这正好打在 Anna 做 InternOS 和 AI sandbox/hardware infra 的交叉点上。