Embodied Agents & World Models · 2026年7月2日
每日论文速递 · Embodied Agents & World Models
💡 一句话:系统评估 MLLM agent 在视觉具身环境里的协作、通信、抗噪和探索能力,重点不是单 agent 成绩,而是多 agent 如何共同完成环境任务。
📄 每日论文速递 · Embodied Agents & World Models
日期:2026-07-02
1. MECoBench:多模态 Agent 在具身环境中的协作研究
MECoBench: A Systematic Study of Multimodal Agent Collaboration in Embodied Environments
🔗 https://arxiv.org/abs/2606.31966v1
💡 一句话:系统评估 MLLM agent 在视觉具身环境里的协作、通信、抗噪和探索能力,重点不是单 agent 成绩,而是多 agent 如何共同完成环境任务。
🎯 关联:这篇最贴 Anna 的 InternOS 方向——它把“协作收益 vs 协调复杂度”摆到台面上,和多 agent 组织、任务分解、状态同步、沟通协议直接相关。
2. TSR:长程 Mobile GUI Agent 的任务状态表示
A Task-State Representation for Long-Horizon Mobile GUI Agents
🔗 https://arxiv.org/abs/2607.00502v1
💡 一句话:给 GUI agent 外挂一个轻量 task-state wrapper,把长期任务状态、当前屏幕观察、动作验证拆开,减少遗忘、幻觉进度和重复操作。
🎯 关联:非常值得看。它本质是在做 agent execution layer 的“状态账本 + progress tracker + verifier”,和 InternOS 的承诺跟踪、执行闭环、环境反馈机制高度同构。
3. Xiaomi-GUI-0:真实手机环境里的 GUI Agent 技术报告
Xiaomi-GUI-0 Technical Report
🔗 https://arxiv.org/abs/2606.31410v2
💡 一句话:把 GUI agent 从离线 benchmark 拉到真实手机闭环里,用真实设备、sandbox、失败轨迹修正、反思数据和 RL 做执行稳定性。
🎯 关联:这篇对 Anna 朋友的 AI sandbox / hardware infra 线也有价值:它明确说 benchmark 分布和真实执行分布不一样,必须有真实环境闭环、异常状态、失败回收和数据飞轮。
4. ABot-M0.5:统一移动与操作的 World Action Model
ABot-M0.5: Unified Mobility-and-Manipulation World Action Model
🔗 https://arxiv.org/abs/2607.00678v1
💡 一句话:针对 mobile manipulation,提出把视频 world model 和可执行动作对齐的 World Action Model,解决导航、机械臂操作、长程 rollout 混在一起导致的误差累积。
🎯 关联:这是 “world model 不能只会生成视频,必须接到 action space” 的典型论文;对未来 agent runtime 的 simulated execution / dry-run / action verifier 很有启发。
5. FurnitureVLA:长程双臂家具组装 VLA
FurnitureVLA: Learning Long-Horizon Bimanual Furniture Assembly with Vision-Language-Action Model
🔗 https://arxiv.org/abs/2607.01212v1
💡 一句话:做真实尺度双臂家具组装,引入 progress-enhanced VLA,让模型同时预测动作和任务进度,从而自动切换子任务、降低长程误差。
🎯 关联:重点不是“家具”,而是 progress signal。Anna 可以把它类比成执行系统里的“任务进度可观测变量”,比纯 thought-action loop 更工程化。
6. ZR-0:用 Dense Embodied CoT 训练 VLA
Training Vision-Language-Action Models with Dense Embodied Chain-of-Thought Supervision
🔗 https://arxiv.org/abs/2606.30552v2
💡 一句话:用 dense embodied chain-of-thought 监督 VLA 的高层认知过程,包括场景理解、物体识别、任务规划、子任务分解,同时用 action expert 输出连续动作。
🎯 关联:它把 System 2 reasoning 和 System 1 action expert 分流,这个架构很像 agent 平台里 planner / executor 的分层;但注意它仍偏机器人 policy,不是通用 agent OS。
7. RoboWorld:用神经世界模型评估通用机器人策略
RoboWorld: Fast and Reliable Neural Simulators for Generalist Robot Policy Evaluation
🔗 https://arxiv.org/abs/2607.01060v1
💡 一句话:用 video world model 做机器人策略评估,并配合 task-progress-aware VLM scoring,目标是替代一部分昂贵真实世界 rollout。
🎯 关联:这篇对“验证层”很关键:未来 agent 不可能每次都真实执行,必须先在 world model / sandbox 里跑 rollout,再用 verifier 判断任务进展和风险。
8. MuSix:面向动态环境的多尺度 World Model 混合
Multi-scale Mixture of World Models for Embodied Agents in Evolving Environments
🔗 https://arxiv.org/abs/2607.00457v1
💡 一句话:给 embodied agent 做多尺度 world model mixture,不同尺度的知识用不同更新频率,低层环境变化快,高层抽象保持稳定。
🎯 关联:这和 InternOS 的长期记忆/短期状态分层很像:执行系统不能把所有环境变化都塞进一个 memory bucket,必须区分局部状态、任务上下文和长期抽象。
今日判断
今天的趋势很明确:具身 agent 正在从“模型能不能看懂/生成动作”转向“执行闭环怎么稳定跑完”。最值得 Anna 关注的是 GUI agent 和 embodied agent 里的 task-state / progress / verifier / failure data flywheel,这些东西比单纯模型分数更接近真实 agent platform 的核心。VLA 这边也在往长程任务、进度信号、world-action model 靠,说明下一阶段的关键不是更大模型,而是让模型和环境反馈、动作空间、验证机制真正接上。