A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年5月11日

每日论文速递 · Agent & LLM

💡 一句话:提出了一个自动化联合优化多智能体系统中所有 agent prompt 的框架,核心创新是用下游 agent 成功率而非局部表现来评估每个 prompt 的质量,配合进化式 beam search 高效搜索高维 prompt 空间。ICML 2026 接收。

I now have enough high-quality papers. I have 7 excellent papers that are all highly relevant. Let me compile the final report.

📄 每日论文速递 · Agent & LLM

日期:2026-05-11


1. MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems

MASPO:面向 LLM 多智能体系统的联合提示优化

💡 一句话:提出了一个自动化联合优化多智能体系统中所有 agent prompt 的框架,核心创新是用"下游 agent 成功率"而非"局部表现"来评估每个 prompt 的质量,配合进化式 beam search 高效搜索高维 prompt 空间。ICML 2026 接收。

🎯 关联:极高。Anna 做的 InternOS 系统正是多 agent 协调,如何自动优化各个 agent 的 prompt 直接影响系统效果。这个"局部-全局目标对齐"的思路对编排层设计有直接启发。


2. More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding

并非越多越好:LLM Agent 脚手架中的跨组件干扰

💡 一句话:实验发现 Agent 的 5 个核心组件(规划、工具、记忆、自我反思、检索)全开并非最优,56% 的组件组合存在"反协同"效应。最优组件子集是任务依赖的,贪心选择不可靠。

🎯 关联:极高。这对 Agent 平台的架构设计是当头棒喝——不能默认堆满所有能力,需要按任务做组件选择。Anna 的平台可以内置"任务感知的组件调度"机制。


3. From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

从存储到经验:LLM Agent 记忆机制演进综述

💡 一句话:将 Agent 记忆演进归纳为三阶段——存储(轨迹保存)→ 反思(轨迹精炼)→ 经验(轨迹抽象),并分析了前沿的主动探索和跨轨迹抽象机制。ACL 2026 Findings 接收。

🎯 关联:极高。InternOS 系统的 agent 需要跨任务、跨会话学习,这篇综述提供了完整的 memory 设计路线图,特别是"经验阶段"的持续学习方向。


4. Governed Collaborative Memory as Artificial Selection in LLM-Based Multi-Agent Systems

LLM 多智能体系统中的治理协作记忆

💡 一句话:提出多 agent 系统中共享记忆需要"治理机制"——哪些记忆可以升级为机构级共识、哪些保持私有、哪些需要被纠正,并设计了分层记忆架构(agent 本地→共享机构→归档→项目连续性)。

🎯 关联:极高。这几乎就是在描述 InternOS 需要的东西——多个 agent 之间如何管理共享知识,如何处理记忆冲突和版本,如何确保信息质量。


5. From Intent to Execution: Composing Agentic Workflows with Agent Recommendation

从意图到执行:通过 Agent 推荐组合智能工作流

💡 一句话:提出自动化构建多 agent 系统的完整框架:LLM 规划器分解意图→动态调用图→编排器映射 agent 到任务→两阶段检索式 agent 推荐器从注册表中匹配最合适的 agent。

🎯 关联:极高。这和 Anna 的 Agent 平台核心需求高度重合——自动化地理解用户意图、选择合适 agent、编排执行流程。agent 推荐器和 critique agent 的设计可直接参考。


6. RepoZero: Can LLMs Generate a Code Repository from Scratch?

RepoZero:LLM 能从零生成完整代码仓库吗?

💡 一句话:首个支持全自动执行验证的仓库级代码生成 benchmark,通过"给 API 规格→重新实现整个仓库→输出等价性验证"的方式评估。最强 agent 也只有 30%-55% 的通过率,暴露了 LLM 编码 agent 的巨大差距。

🎯 关联:。对 AI Agent 平台中代码生成模块的能力上限有直接参考价值。其中提出的 Agentic Code-Test Evolution(迭代生成测试+错误驱动修复)框架值得借鉴。


7. VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?

VibeServe:AI Agent 能自动构建定制化 LLM 服务系统吗?

💡 一句话:提出用多 agent 循环自动为不同场景生成定制化 LLM 推理服务栈(而非用通用系统硬扛),在非标准场景下超越 vLLM。核心思想是"生成时特化"代替"运行时通用"。

🎯 关联:。"Agent 自动生成基础设施"的范式非常前瞻。对 Anna 来说,启发在于 Agent 平台本身的服务层也可以被 agent 化——根据具体负载特征动态生成最优推理配置。


📌 今日重点关注:第 2 篇(组件干扰)和第 4 篇(治理协作记忆)对 InternOS 的架构设计有直接指导意义。建议优先精读。第 1 篇 MASPO 是 ICML 接收的工作,质量有保障。
生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-05-11 09:05:09
源文件
2026-05-11_09-05-09.md
链接数
7