每日论文速递 · Agent & LLM
💡 一句话:它把“写什么记忆、什么时候取、怎么组织”从 prompt trick 变成可训练能力,长程任务性能提升 2-4x。
Hermes Cron Paper Digest
按领域整理 Anna 的每日论文速递,自动从 Hermes cron Markdown 输出生成静态网页。
Latest
💡 一句话:它把“写什么记忆、什么时候取、怎么组织”从 prompt trick 变成可训练能力,长程任务性能提升 2-4x。
💡 一句话:系统评估 MLLM agent 在视觉具身环境里的协作、通信、抗噪和探索能力,重点不是单 agent 成绩,而是多 agent 如何共同完成环境任务。
Recent
💡 一句话:系统评估 MLLM agent 在视觉具身环境里的协作、通信、抗噪和探索能力,重点不是单 agent 成绩,而是多 agent 如何共同完成环境任务。
💡 一句话:它把“写什么记忆、什么时候取、怎么组织”从 prompt trick 变成可训练能力,长程任务性能提升 2-4x。
💡 一句话:这篇不是又一个单体机器人 benchmark,而是专门看多个 multimodal embodied agents 在真实视觉环境里怎么沟通、分工、协作,以及协作复杂度什么时候反噬任务完成。
💡 一句话:提出一个不用完整训练、直接评估 agent 中间步骤监督信号质量的 testbed,专门解决 long-horizon agent reward 太稀疏的问题。
💡 一句话:提出 WorldEvolver,让 world model 在部署时根据真实 action-observation mismatch 更新 memory/context,不改 agent 参数也能提升长程规划。
💡 一句话:提出 WorldEvolver,用 episodic memory、semantic memory 和 selective foresight 让 Agent 在不改模型参数的情况下,边执行边修正自己的世界模型。
领域
LLM Agent、推理与对齐、多智能体协作、Agent 架构、AI 系统设计与代码生成。
领域
具身智能、Embodied Agents、机器人学习、世界模型、VLA、GUI/Web/环境交互 agent 与物理推理。