A Anna 的论文速递Hermes Cron Paper Digest

Embodied Agents & World Models · 2026年6月23日

每日论文速递 · Embodied Agents & World Models

💡 一句话:这篇直接把 LLM agent 的“状态理解 → 工具调用 → 反馈检查 → 重规划”闭环搬到真实机器人上,用 Embodied AgentOS + 3D spatial memory + skills 组织真实硬件执行。

📄 每日论文速递 · Embodied Agents & World Models

日期:2026-06-23


1. HoloAgent-0:带 3D 空间记忆的统一具身 Agent 框架

HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory

💡 一句话:这篇直接把 LLM agent 的“状态理解 → 工具调用 → 反馈检查 → 重规划”闭环搬到真实机器人上,用 Embodied AgentOS + 3D spatial memory + skills 组织真实硬件执行。

🎯 关联:今天最值得看。它的 Embodied AgentOS 很像 InternOS 在物理世界里的版本:任务图、资源调度、执行监控、clarification/re-planning,都对 Anna 做 agent 平台和执行层很有参考价值。


2. ENVS:面向长程 GUI Agent 的环境原生验证搜索

ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents

💡 一句话:它不是靠人工标注教 GUI agent,而是在真实 OSWorld VM 里分支探索、验证成功轨迹,再把 verified supervision 拿来训练。

🎯 关联:非常贴 Anna 的 generator + verifier + environment feedback loop。这个方向比“堆更强 VLM”更重要:agent 系统真正的瓶颈是可验证执行数据怎么从环境里长出来。


3. MobileForge:无标注适配移动 GUI Agent 的分层反馈策略优化

MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

💡 一句话:用真实 mobile app 交互生成任务、执行 rollout、收集 trajectory/outcome/step feedback,再做 step-level GRPO,让 GUI agent 自己适配目标 app。

🎯 关联:这篇对 AI sandbox / agent infra 很关键:它把“环境、任务生成、反馈、训练”做成闭环 substrate,而不是孤立 benchmark。Anna 如果设计 agent runtime,应该盯这种 data flywheel。


4. MemGUI-Agent:带主动上下文管理的长程移动 GUI Agent

MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

💡 一句话:把 context management 变成 agent 可执行的 action,而不是 ReAct 那种被动堆历史,解决长程 GUI 任务里的记忆爆炸和关键信息稀释。

🎯 关联:这篇对 InternOS 的“组织协调系统”启发很直接:memory/context 不是日志,是执行态的一部分;系统要允许 agent 主动压缩、折叠、维护工作状态。


5. IOI:解耦运动学和物理的交互式 World Model

IOI: Decoupling Kinematics and Physics for Interactive World Models

💡 一句话:它把确定性的 forward kinematics 和学习式物理视频生成拆开,让 world model 既能对齐动作控制,又能生成物理反馈,并可作为 policy evaluator。

🎯 关联:这篇对 sandbox/hardware infra 很有价值。未来 agent sandbox 不能只是“跑代码”,还要有可交互、可验证、可回放的环境模型;IOI 是物理版 execution simulator 的好样子。


6. LaST-HD:从大规模人手数据学习机器人操作的潜在物理推理

LaST-HD: Learning Latent Physical Reasoning from Scalable Human Data for Robot Manipulation

💡 一句话:它用 action-conditioned world model 把人手示教和机器人轨迹对齐到同一个 latent dynamics space,减少单纯模仿人体运动带来的 embodiment mismatch。

🎯 关联:核心点不是 glove,而是“跨 embodiment 的 latent reasoning space”。这对 Anna 思考 agent 执行层很有启发:不同工具/机器人/环境之间,需要共享的是意图和动态模型,不是表面动作序列。


7. RECALL:面向 VLA 的主动终身学习恢复经验收集

RECALL: Recovery Experience Collection for Active Lifelong Learning in Vision-Language-Action Models

💡 一句话:它让 VLA 在不确定或失败边界主动收集 recovery demonstrations,而不是等整段任务失败后再被动补数据。

🎯 关联:这篇很适合映射到 agent 平台:失败不是 binary outcome,而是应该在执行中定位“哪个状态需要监督/恢复”。InternOS 里的执行监控、失败归因、经验沉淀都可以借这个思路。


8. eMEM:面向具身 Agent 的混合时空记忆系统

eMEM: A Hybrid Spatio-Temporal Memory System For Embodied Agents

💡 一句话:它把 embodied memory 做成语义、空间、时间三种索引统一的图结构,并暴露成 agent 可调用的 recall tools。

🎯 关联:这篇不是炫模型,是系统设计。Anna 做 agent memory / InternOS 状态管理时,可以重点看它的 multi-index memory:text RAG 不够,执行型 agent 需要 location-aware、time-aware、task-aware 的记忆。


今日判断

今天的趋势很清楚:agent 研究正在从“模型会不会推理”转向“系统怎么在环境里执行、验证、恢复、积累经验”。GUI agent 和 embodied robot 两条线开始收敛:都在做 verified search、active feedback、structured memory、world model simulator。

我的判断:未来真正有壁垒的不是单个 VLA/MLLM policy,而是 环境反馈闭环 + 可验证轨迹生成 + 执行态记忆 + recovery data flywheel。这正好打在 Anna 做 InternOS 和 AI sandbox/hardware infra 的交叉点上。

生成信息
领域
Embodied Agents & World Models
Job ID
ca50b46122f4
运行时间
2026-06-23 09:13:30
源文件
2026-06-23_09-13-30.md
链接数
8