Agent & LLM · 2026年5月5日

📄 每日论文速递 · Agent & LLM

2026-05-05 09:01:215 篇论文条目

arXiv:2405.11403 arXiv:2404.05427 arXiv:2412.13663 arXiv:2407.07061 arXiv:2410.10934

📄 每日论文速递 · Agent & LLM

2025年5月5日 · 周一

1. MapCoder: Multi-Agent Code Generation for Competitive Problems

作者 / 机构 | Md. Ashraful Islam et al.

一句话：提出一个多智能体代码生成框架，通过模拟人类程序员的完整解题流程（回忆相似问题→规划→代码生成→调试），在多个代码竞赛 benchmark 上刷新 SOTA。

为什么值得看：把竞赛编程的解题过程拆成 4 个专门的 Agent 角色来协作，不是简单的 prompt 拼接而是有明确的信息流设计。在 HumanEval、MBPP、CodeContests 等多个 benchmark 上都有显著提升，说明多 Agent 分工在代码生成任务上是有实际收益的。对设计 Coding Agent 系统架构有直接参考价值。

2. AutoCodeRover: Autonomous Program Improvement

作者 / 机构 | Yuntong Zhang et al., NUS

一句话：一个自主代码修复 Agent，结合代码搜索 API 和分层定位策略，在 SWE-bench 上实现了高效的 bug 定位和修复。

为什么值得看：跟 SWE-Agent 走不同路线——不是让 LLM 直接操作文件系统，而是设计了程序结构感知的搜索接口，让 Agent 能在 AST 层面定位问题。在 SWE-bench lite 上的修复率很能打，且 token 消耗远低于暴力方案。对做 SE Agent 的同学来说，这个"给 Agent 什么粒度的工具"的设计决策值得深入研究。

3. Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

作者 / 机构 | Benjamin Warner et al., Answer.AI & LightOn

一句话：重新设计了一个现代化的双向编码器（ModernBERT），支持 8192 token 长上下文，推理速度和显存效率大幅优于现有 encoder 模型。

为什么值得看：Agent 系统里做 retrieval、分类、reranking 还是得靠 encoder 模型，但 BERT 系列太老了。这篇把 RoPE、Flash Attention、交替 attention 等现代技术塞进 encoder 架构，推理速度快 2x 且原生支持长文本。如果你在做 Agent 的 RAG 模块或者需要高效的文本表征，这个是直接可用的基础设施升级。

4. Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

作者 / 机构 | Weize Chen et al., THU & Tencent

一句话：提出一个"Agent 互联网"框架，让不同架构、不同能力的异构 Agent 能动态发现彼此并组队协作完成复杂任务。

为什么值得看：Multi-agent 研究大多假设所有 agent 是同质的或预先编排好的，这篇解决的是更现实的问题：当你有一堆不同团队做的 Agent，怎么让它们即插即用地协作？设计了 Agent 注册、能力发现、动态组队的机制。对做 Agent 平台和编排层的人来说，这个架构思路比较有启发性。

5. Agent-as-a-Judge: Evaluate Agents with Agents

作者 / 机构 | Zhiwei He et al.

一句话：提出用 Agent 来评估 Agent 的表现，而不是传统的静态 metric 或人工评审，并发布了配套的评测框架。

为什么值得看：Agent 评测是当前最大的痛点之一——现有 benchmark 要么太静态，要么评测维度太单一。这篇的思路是让评估者本身也是一个 Agent，能重放被评估 Agent 的决策过程、验证中间步骤。对做 Agent 质量保障和评测体系的团队，这个方向值得跟进。

对哪篇感兴趣可以展开聊聊 👆