Embodied Agents & World Models · 2026年7月2日

每日论文速递 · Embodied Agents & World Models

💡 一句话：系统评估 MLLM agent 在视觉具身环境里的协作、通信、抗噪和探索能力，重点不是单 agent 成绩，而是多 agent 如何共同完成环境任务。

2026-07-02 09:13:458 篇论文条目

arXiv:2606.31966 arXiv:2607.00502 arXiv:2606.31410 arXiv:2607.00678 arXiv:2607.01212 arXiv:2606.30552 arXiv:2607.01060 arXiv:2607.00457

📄 每日论文速递 · Embodied Agents & World Models

日期：2026-07-02

1. MECoBench：多模态 Agent 在具身环境中的协作研究

MECoBench: A Systematic Study of Multimodal Agent Collaboration in Embodied Environments

🔗 https://arxiv.org/abs/2606.31966v1

💡 一句话：系统评估 MLLM agent 在视觉具身环境里的协作、通信、抗噪和探索能力，重点不是单 agent 成绩，而是多 agent 如何共同完成环境任务。

🎯 关联：这篇最贴 Anna 的 InternOS 方向——它把“协作收益 vs 协调复杂度”摆到台面上，和多 agent 组织、任务分解、状态同步、沟通协议直接相关。

2. TSR：长程 Mobile GUI Agent 的任务状态表示

A Task-State Representation for Long-Horizon Mobile GUI Agents

🔗 https://arxiv.org/abs/2607.00502v1

💡 一句话：给 GUI agent 外挂一个轻量 task-state wrapper，把长期任务状态、当前屏幕观察、动作验证拆开，减少遗忘、幻觉进度和重复操作。

🎯 关联：非常值得看。它本质是在做 agent execution layer 的“状态账本 + progress tracker + verifier”，和 InternOS 的承诺跟踪、执行闭环、环境反馈机制高度同构。

3. Xiaomi-GUI-0：真实手机环境里的 GUI Agent 技术报告

Xiaomi-GUI-0 Technical Report

🔗 https://arxiv.org/abs/2606.31410v2

💡 一句话：把 GUI agent 从离线 benchmark 拉到真实手机闭环里，用真实设备、sandbox、失败轨迹修正、反思数据和 RL 做执行稳定性。

🎯 关联：这篇对 Anna 朋友的 AI sandbox / hardware infra 线也有价值：它明确说 benchmark 分布和真实执行分布不一样，必须有真实环境闭环、异常状态、失败回收和数据飞轮。

4. ABot-M0.5：统一移动与操作的 World Action Model

ABot-M0.5: Unified Mobility-and-Manipulation World Action Model

🔗 https://arxiv.org/abs/2607.00678v1

💡 一句话：针对 mobile manipulation，提出把视频 world model 和可执行动作对齐的 World Action Model，解决导航、机械臂操作、长程 rollout 混在一起导致的误差累积。

🎯 关联：这是 “world model 不能只会生成视频，必须接到 action space” 的典型论文；对未来 agent runtime 的 simulated execution / dry-run / action verifier 很有启发。

5. FurnitureVLA：长程双臂家具组装 VLA

FurnitureVLA: Learning Long-Horizon Bimanual Furniture Assembly with Vision-Language-Action Model

🔗 https://arxiv.org/abs/2607.01212v1

💡 一句话：做真实尺度双臂家具组装，引入 progress-enhanced VLA，让模型同时预测动作和任务进度，从而自动切换子任务、降低长程误差。

🎯 关联：重点不是“家具”，而是 progress signal。Anna 可以把它类比成执行系统里的“任务进度可观测变量”，比纯 thought-action loop 更工程化。

6. ZR-0：用 Dense Embodied CoT 训练 VLA

Training Vision-Language-Action Models with Dense Embodied Chain-of-Thought Supervision

🔗 https://arxiv.org/abs/2606.30552v2

💡 一句话：用 dense embodied chain-of-thought 监督 VLA 的高层认知过程，包括场景理解、物体识别、任务规划、子任务分解，同时用 action expert 输出连续动作。

🎯 关联：它把 System 2 reasoning 和 System 1 action expert 分流，这个架构很像 agent 平台里 planner / executor 的分层；但注意它仍偏机器人 policy，不是通用 agent OS。

7. RoboWorld：用神经世界模型评估通用机器人策略

RoboWorld: Fast and Reliable Neural Simulators for Generalist Robot Policy Evaluation

🔗 https://arxiv.org/abs/2607.01060v1

💡 一句话：用 video world model 做机器人策略评估，并配合 task-progress-aware VLM scoring，目标是替代一部分昂贵真实世界 rollout。

🎯 关联：这篇对“验证层”很关键：未来 agent 不可能每次都真实执行，必须先在 world model / sandbox 里跑 rollout，再用 verifier 判断任务进展和风险。

8. MuSix：面向动态环境的多尺度 World Model 混合

Multi-scale Mixture of World Models for Embodied Agents in Evolving Environments

🔗 https://arxiv.org/abs/2607.00457v1

💡 一句话：给 embodied agent 做多尺度 world model mixture，不同尺度的知识用不同更新频率，低层环境变化快，高层抽象保持稳定。

🎯 关联：这和 InternOS 的长期记忆/短期状态分层很像：执行系统不能把所有环境变化都塞进一个 memory bucket，必须区分局部状态、任务上下文和长期抽象。

今日判断

今天的趋势很明确：具身 agent 正在从“模型能不能看懂/生成动作”转向“执行闭环怎么稳定跑完”。最值得 Anna 关注的是 GUI agent 和 embodied agent 里的 task-state / progress / verifier / failure data flywheel，这些东西比单纯模型分数更接近真实 agent platform 的核心。VLA 这边也在往长程任务、进度信号、world-action model 靠，说明下一阶段的关键不是更大模型，而是让模型和环境反馈、动作空间、验证机制真正接上。