Embodied Agents & World Models · 2026年6月23日

每日论文速递 · Embodied Agents & World Models

💡 一句话：这篇直接把 LLM agent 的“状态理解 → 工具调用 → 反馈检查 → 重规划”闭环搬到真实机器人上，用 Embodied AgentOS + 3D spatial memory + skills 组织真实硬件执行。

2026-06-23 09:13:308 篇论文条目

arXiv:2606.23565 arXiv:2606.22948 arXiv:2606.19930 arXiv:2606.19926 arXiv:2606.23296 arXiv:2606.23685 arXiv:2606.23617 arXiv:2606.03374

📄 每日论文速递 · Embodied Agents & World Models

日期：2026-06-23

1. HoloAgent-0：带 3D 空间记忆的统一具身 Agent 框架

HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory

🔗 https://arxiv.org/abs/2606.23565

🎯 关联：今天最值得看。它的 Embodied AgentOS 很像 InternOS 在物理世界里的版本：任务图、资源调度、执行监控、clarification/re-planning，都对 Anna 做 agent 平台和执行层很有参考价值。

2. ENVS：面向长程 GUI Agent 的环境原生验证搜索

ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents

🔗 https://arxiv.org/abs/2606.22948

💡 一句话：它不是靠人工标注教 GUI agent，而是在真实 OSWorld VM 里分支探索、验证成功轨迹，再把 verified supervision 拿来训练。

🎯 关联：非常贴 Anna 的 generator + verifier + environment feedback loop。这个方向比“堆更强 VLM”更重要：agent 系统真正的瓶颈是可验证执行数据怎么从环境里长出来。

3. MobileForge：无标注适配移动 GUI Agent 的分层反馈策略优化

MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

🔗 https://arxiv.org/abs/2606.19930

💡 一句话：用真实 mobile app 交互生成任务、执行 rollout、收集 trajectory/outcome/step feedback，再做 step-level GRPO，让 GUI agent 自己适配目标 app。

🎯 关联：这篇对 AI sandbox / agent infra 很关键：它把“环境、任务生成、反馈、训练”做成闭环 substrate，而不是孤立 benchmark。Anna 如果设计 agent runtime，应该盯这种 data flywheel。

4. MemGUI-Agent：带主动上下文管理的长程移动 GUI Agent

MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

🔗 https://arxiv.org/abs/2606.19926

💡 一句话：把 context management 变成 agent 可执行的 action，而不是 ReAct 那种被动堆历史，解决长程 GUI 任务里的记忆爆炸和关键信息稀释。

🎯 关联：这篇对 InternOS 的“组织协调系统”启发很直接：memory/context 不是日志，是执行态的一部分；系统要允许 agent 主动压缩、折叠、维护工作状态。

5. IOI：解耦运动学和物理的交互式 World Model

IOI: Decoupling Kinematics and Physics for Interactive World Models

🔗 https://arxiv.org/abs/2606.23296

💡 一句话：它把确定性的 forward kinematics 和学习式物理视频生成拆开，让 world model 既能对齐动作控制，又能生成物理反馈，并可作为 policy evaluator。

🎯 关联：这篇对 sandbox/hardware infra 很有价值。未来 agent sandbox 不能只是“跑代码”，还要有可交互、可验证、可回放的环境模型；IOI 是物理版 execution simulator 的好样子。

6. LaST-HD：从大规模人手数据学习机器人操作的潜在物理推理

LaST-HD: Learning Latent Physical Reasoning from Scalable Human Data for Robot Manipulation

🔗 https://arxiv.org/abs/2606.23685

💡 一句话：它用 action-conditioned world model 把人手示教和机器人轨迹对齐到同一个 latent dynamics space，减少单纯模仿人体运动带来的 embodiment mismatch。

🎯 关联：核心点不是 glove，而是“跨 embodiment 的 latent reasoning space”。这对 Anna 思考 agent 执行层很有启发：不同工具/机器人/环境之间，需要共享的是意图和动态模型，不是表面动作序列。

7. RECALL：面向 VLA 的主动终身学习恢复经验收集

RECALL: Recovery Experience Collection for Active Lifelong Learning in Vision-Language-Action Models

🔗 https://arxiv.org/abs/2606.23617

💡 一句话：它让 VLA 在不确定或失败边界主动收集 recovery demonstrations，而不是等整段任务失败后再被动补数据。

🎯 关联：这篇很适合映射到 agent 平台：失败不是 binary outcome，而是应该在执行中定位“哪个状态需要监督/恢复”。InternOS 里的执行监控、失败归因、经验沉淀都可以借这个思路。

8. eMEM：面向具身 Agent 的混合时空记忆系统

eMEM: A Hybrid Spatio-Temporal Memory System For Embodied Agents

🔗 https://arxiv.org/abs/2606.03374

💡 一句话：它把 embodied memory 做成语义、空间、时间三种索引统一的图结构，并暴露成 agent 可调用的 recall tools。

🎯 关联：这篇不是炫模型，是系统设计。Anna 做 agent memory / InternOS 状态管理时，可以重点看它的 multi-index memory：text RAG 不够，执行型 agent 需要 location-aware、time-aware、task-aware 的记忆。

今日判断

今天的趋势很清楚：agent 研究正在从“模型会不会推理”转向“系统怎么在环境里执行、验证、恢复、积累经验”。GUI agent 和 embodied robot 两条线开始收敛：都在做 verified search、active feedback、structured memory、world model simulator。

我的判断：未来真正有壁垒的不是单个 VLA/MLLM policy，而是 环境反馈闭环 + 可验证轨迹生成 + 执行态记忆 + recovery data flywheel。这正好打在 Anna 做 InternOS 和 AI sandbox/hardware infra 的交叉点上。