A Anna 的论文速递Hermes Cron Paper Digest

Embodied Agents & World Models · 2026年6月29日

每日论文速递 · Embodied Agents & World Models

💡 一句话:OmniAct 把 cyber action、IoT、机器人导航/操作、记忆压缩、异步视觉验证放进一个分层 agent 架构里,目标是长时间真实环境自主执行。

📄 每日论文速递 · Embodied Agents & World Models

日期:2026-06-29


1. 从孤立技能到日常物理自治:推进全模态具身智能体

Advancing Omnimodal Embodied Agents from Isolated Skills to Everyday Physical Autonomy

💡 一句话:OmniAct 把 cyber action、IoT、机器人导航/操作、记忆压缩、异步视觉验证放进一个分层 agent 架构里,目标是长时间真实环境自主执行。

🎯 关联:今天最值得看。它不是单点 robot policy,而是 planning / memory / verification / execution 的完整闭环,和 InternOS 的“组织协调 + 执行反馈”非常贴。


2. 学习协作法则:建模具身多智能体行为

LLawCo: Learning Laws of Cooperation for Modeling Embodied Multi-Agent Behavior

💡 一句话:让 embodied multi-agent 从失败里总结“协作法则”,再把这些规则注入推理过程,提高多 agent 在部分可观测环境里的协作效率。

🎯 关联:这篇对 InternOS 很有启发:不是只做 task decomposition,而是把历史失败沉淀成可复用的 coordination law,像组织系统里的“协作协议学习”。


3. E-TTS:机器人操作的具身 Test-Time Scaling 框架

E-TTS: A New Embodied Test-Time Scaling Framework for Robotic Manipulation

💡 一句话:把 reasoning-action joint sampling、history buffer、vision-language verifier 和 feedback refinement 组合起来,在推理时提升 VLA 执行成功率。

🎯 关联:这就是 generator + verifier + self-improvement loop 的具身版本;对 Anna 做 agent 执行层很关键——不要只让 agent “想一步做一步”,要在执行时采样、评分、修正。


4. PhysReflect-VLA:带物理可行性检查和自反思调节的可靠 VLA

PhysReflect-VLA: Physical Feasibility and Self-Reflective Regulation for Reliable Vision-Language-Action Policies

💡 一句话:给 VLA 加上 physical feasibility evaluator、action explanation operator 和 LLM reflection module,让机器人在执行中发现不合理动作并自我修正。

🎯 关联:这篇的价值不在“又一个 VLA”,而在 verifier 设计:执行前检查物理可行性,执行后解释偏差,再反馈下一步动作。这个 pattern 可以直接迁移到 sandbox / agent runtime。


5. SimFoundry:用于策略学习与评估的模块化自动场景生成

SimFoundry: Modular and Automated Scene Generation for Policy Learning and Evaluation

💡 一句话:从视频自动构建 sim-ready digital twin,并生成保持 affordance 的“digital cousins”,用于训练和评估机器人策略。

🎯 关联:对 AI sandbox / hardware infra 线很相关:未来 agent 的评测环境不能靠人工写几个 toy benchmark,而是要自动生成可变体、可回放、可对照的环境族。


6. PhysisForcing:面向机器人操作的物理强化世界模拟器

PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation

💡 一句话:针对视频 world model 容易生成物理不连续、接触关系不合理的问题,用轨迹对齐和语义关系对齐强化物理一致性。

🎯 关联:world model 如果不能可靠预测“动作之后环境会怎样”,就没法做 serious planning。这篇说明 embodied world model 的核心瓶颈已经从画面真实转向物理一致性。


7. DIM-WAM:带多尺度历史事件记忆的 World-Action Model

DIM-WAM: World-Action Modeling with Diverse Historical Event Memory

💡 一句话:给 world-action model 加入长期事件记忆和任务进度监督,解决长任务里只看短历史导致的遗忘问题。

🎯 关联:这和 InternOS 的 memory / state tracking 很像:执行系统不能只保留最近上下文,必须把“已完成阶段、关键事件、当前进度”结构化成可读 memory。


8. RouterVLA:把 Smoke Test 变成异构 VLA 策略选择监督

RouterVLA: Turning Smoke Tests into Supervision for Heterogeneous VLA Selection

💡 一句话:用预部署 smoke test 的结果来选择最适合当前任务的 VLA expert,并强调评估 ledger 必须做 outcome separation,避免虚高收益。

🎯 关联:这篇很工程化但重要:未来 agent 平台不会只有一个万能模型,而是 router + expert pool + evaluation ledger;这和 Anna 做 agent infra 的模型选择、执行前验证非常贴。


今日判断

今天的趋势很明确:具身智能正在从“训练一个更强 policy”转向“搭一个能长期运行的执行系统”。planning、memory、verifier、world model、policy routing、sim sandbox 这些模块开始合流。 blunt 一点说,单纯 VLA scaling 已经不够性感了;真正有价值的是能不能把 agent 放进环境里,让它执行、检查、失败恢复、积累经验。

生成信息
领域
Embodied Agents & World Models
Job ID
ca50b46122f4
运行时间
2026-06-29 09:14:00
源文件
2026-06-29_09-14-00.md
链接数
8