Agent & LLM · 2026年5月11日

每日论文速递 · Agent & LLM

💡 一句话：提出了一个自动化联合优化多智能体系统中所有 agent prompt 的框架，核心创新是用下游 agent 成功率而非局部表现来评估每个 prompt 的质量，配合进化式 beam search 高效搜索高维 prompt 空间。ICML 2026 接收。

2026-05-11 09:05:097 篇论文条目

I now have enough high-quality papers. I have 7 excellent papers that are all highly relevant. Let me compile the final report.

📄 每日论文速递 · Agent & LLM

日期：2026-05-11

1. MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems

MASPO：面向 LLM 多智能体系统的联合提示优化

💡 一句话：提出了一个自动化联合优化多智能体系统中所有 agent prompt 的框架，核心创新是用"下游 agent 成功率"而非"局部表现"来评估每个 prompt 的质量，配合进化式 beam search 高效搜索高维 prompt 空间。ICML 2026 接收。

🎯 关联：极高。Anna 做的 InternOS 系统正是多 agent 协调，如何自动优化各个 agent 的 prompt 直接影响系统效果。这个"局部-全局目标对齐"的思路对编排层设计有直接启发。

2. More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding

并非越多越好：LLM Agent 脚手架中的跨组件干扰

💡 一句话：实验发现 Agent 的 5 个核心组件（规划、工具、记忆、自我反思、检索）全开并非最优，56% 的组件组合存在"反协同"效应。最优组件子集是任务依赖的，贪心选择不可靠。

🎯 关联：极高。这对 Agent 平台的架构设计是当头棒喝——不能默认堆满所有能力，需要按任务做组件选择。Anna 的平台可以内置"任务感知的组件调度"机制。

3. From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

从存储到经验：LLM Agent 记忆机制演进综述

💡 一句话：将 Agent 记忆演进归纳为三阶段——存储（轨迹保存）→ 反思（轨迹精炼）→ 经验（轨迹抽象），并分析了前沿的主动探索和跨轨迹抽象机制。ACL 2026 Findings 接收。

🎯 关联：极高。InternOS 系统的 agent 需要跨任务、跨会话学习，这篇综述提供了完整的 memory 设计路线图，特别是"经验阶段"的持续学习方向。

4. Governed Collaborative Memory as Artificial Selection in LLM-Based Multi-Agent Systems

LLM 多智能体系统中的治理协作记忆

💡 一句话：提出多 agent 系统中共享记忆需要"治理机制"——哪些记忆可以升级为机构级共识、哪些保持私有、哪些需要被纠正，并设计了分层记忆架构（agent 本地→共享机构→归档→项目连续性）。

🎯 关联：极高。这几乎就是在描述 InternOS 需要的东西——多个 agent 之间如何管理共享知识，如何处理记忆冲突和版本，如何确保信息质量。

5. From Intent to Execution: Composing Agentic Workflows with Agent Recommendation

从意图到执行：通过 Agent 推荐组合智能工作流

💡 一句话：提出自动化构建多 agent 系统的完整框架：LLM 规划器分解意图→动态调用图→编排器映射 agent 到任务→两阶段检索式 agent 推荐器从注册表中匹配最合适的 agent。

🎯 关联：极高。这和 Anna 的 Agent 平台核心需求高度重合——自动化地理解用户意图、选择合适 agent、编排执行流程。agent 推荐器和 critique agent 的设计可直接参考。

6. RepoZero: Can LLMs Generate a Code Repository from Scratch?

RepoZero：LLM 能从零生成完整代码仓库吗？

💡 一句话：首个支持全自动执行验证的仓库级代码生成 benchmark，通过"给 API 规格→重新实现整个仓库→输出等价性验证"的方式评估。最强 agent 也只有 30%-55% 的通过率，暴露了 LLM 编码 agent 的巨大差距。

🎯 关联：高。对 AI Agent 平台中代码生成模块的能力上限有直接参考价值。其中提出的 Agentic Code-Test Evolution（迭代生成测试+错误驱动修复）框架值得借鉴。

7. VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?

VibeServe：AI Agent 能自动构建定制化 LLM 服务系统吗？

💡 一句话：提出用多 agent 循环自动为不同场景生成定制化 LLM 推理服务栈（而非用通用系统硬扛），在非标准场景下超越 vLLM。核心思想是"生成时特化"代替"运行时通用"。

🎯 关联：高。"Agent 自动生成基础设施"的范式非常前瞻。对 Anna 来说，启发在于 Agent 平台本身的服务层也可以被 agent 化——根据具体负载特征动态生成最优推理配置。

📌 今日重点关注：第 2 篇（组件干扰）和第 4 篇（治理协作记忆）对 InternOS 的架构设计有直接指导意义。建议优先精读。第 1 篇 MASPO 是 ICML 接收的工作，质量有保障。