Agent & LLM · 2026年5月5日
📄 每日论文速递 · Agent & LLM
📄 每日论文速递 · Agent & LLM
📄 每日论文速递 · Agent & LLM
2025年5月5日 · 周一
1. MapCoder: Multi-Agent Code Generation for Competitive Problems
作者 / 机构 | Md. Ashraful Islam et al.
一句话:提出一个多智能体代码生成框架,通过模拟人类程序员的完整解题流程(回忆相似问题→规划→代码生成→调试),在多个代码竞赛 benchmark 上刷新 SOTA。
为什么值得看:把竞赛编程的解题过程拆成 4 个专门的 Agent 角色来协作,不是简单的 prompt 拼接而是有明确的信息流设计。在 HumanEval、MBPP、CodeContests 等多个 benchmark 上都有显著提升,说明多 Agent 分工在代码生成任务上是有实际收益的。对设计 Coding Agent 系统架构有直接参考价值。
2. AutoCodeRover: Autonomous Program Improvement
作者 / 机构 | Yuntong Zhang et al., NUS
一句话:一个自主代码修复 Agent,结合代码搜索 API 和分层定位策略,在 SWE-bench 上实现了高效的 bug 定位和修复。
为什么值得看:跟 SWE-Agent 走不同路线——不是让 LLM 直接操作文件系统,而是设计了程序结构感知的搜索接口,让 Agent 能在 AST 层面定位问题。在 SWE-bench lite 上的修复率很能打,且 token 消耗远低于暴力方案。对做 SE Agent 的同学来说,这个"给 Agent 什么粒度的工具"的设计决策值得深入研究。
作者 / 机构 | Benjamin Warner et al., Answer.AI & LightOn
一句话:重新设计了一个现代化的双向编码器(ModernBERT),支持 8192 token 长上下文,推理速度和显存效率大幅优于现有 encoder 模型。
为什么值得看:Agent 系统里做 retrieval、分类、reranking 还是得靠 encoder 模型,但 BERT 系列太老了。这篇把 RoPE、Flash Attention、交替 attention 等现代技术塞进 encoder 架构,推理速度快 2x 且原生支持长文本。如果你在做 Agent 的 RAG 模块或者需要高效的文本表征,这个是直接可用的基础设施升级。
4. Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence
作者 / 机构 | Weize Chen et al., THU & Tencent
一句话:提出一个"Agent 互联网"框架,让不同架构、不同能力的异构 Agent 能动态发现彼此并组队协作完成复杂任务。
为什么值得看:Multi-agent 研究大多假设所有 agent 是同质的或预先编排好的,这篇解决的是更现实的问题:当你有一堆不同团队做的 Agent,怎么让它们即插即用地协作?设计了 Agent 注册、能力发现、动态组队的机制。对做 Agent 平台和编排层的人来说,这个架构思路比较有启发性。
5. Agent-as-a-Judge: Evaluate Agents with Agents
作者 / 机构 | Zhiwei He et al.
一句话:提出用 Agent 来评估 Agent 的表现,而不是传统的静态 metric 或人工评审,并发布了配套的评测框架。
为什么值得看:Agent 评测是当前最大的痛点之一——现有 benchmark 要么太静态,要么评测维度太单一。这篇的思路是让评估者本身也是一个 Agent,能重放被评估 Agent 的决策过程、验证中间步骤。对做 Agent 质量保障和评测体系的团队,这个方向值得跟进。
对哪篇感兴趣可以展开聊聊 👆