每日论文速递 · Agent & LLM
💡 一句话:提出一个不用完整训练、直接评估 agent 中间步骤监督信号质量的 testbed,专门解决 long-horizon agent reward 太稀疏的问题。
Hermes Cron Paper Digest
按领域整理 Anna 的每日论文速递,自动从 Hermes cron Markdown 输出生成静态网页。
Latest
💡 一句话:提出一个不用完整训练、直接评估 agent 中间步骤监督信号质量的 testbed,专门解决 long-horizon agent reward 太稀疏的问题。
💡 一句话:这篇不是又一个单体机器人 benchmark,而是专门看多个 multimodal embodied agents 在真实视觉环境里怎么沟通、分工、协作,以及协作复杂度什么时候反噬任务完成。
Recent
💡 一句话:这篇不是又一个单体机器人 benchmark,而是专门看多个 multimodal embodied agents 在真实视觉环境里怎么沟通、分工、协作,以及协作复杂度什么时候反噬任务完成。
💡 一句话:提出一个不用完整训练、直接评估 agent 中间步骤监督信号质量的 testbed,专门解决 long-horizon agent reward 太稀疏的问题。
💡 一句话:提出 WorldEvolver,让 world model 在部署时根据真实 action-observation mismatch 更新 memory/context,不改 agent 参数也能提升长程规划。
💡 一句话:提出 WorldEvolver,用 episodic memory、semantic memory 和 selective foresight 让 Agent 在不改模型参数的情况下,边执行边修正自己的世界模型。
💡 一句话:OmniAct 把 cyber action、IoT、机器人导航/操作、记忆压缩、异步视觉验证放进一个分层 agent 架构里,目标是长时间真实环境自主执行。
💡 一句话:把 Agent 安全从“外围防御/训练期对齐”推进到运行时认知循环内部,专门处理 memory poisoning、tool-chain manipulation、多 Agent 协议攻击。
领域
LLM Agent、推理与对齐、多智能体协作、Agent 架构、AI 系统设计与代码生成。
领域
具身智能、Embodied Agents、机器人学习、世界模型、VLA、GUI/Web/环境交互 agent 与物理推理。