A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年5月5日

📄 每日论文速递 · Agent & LLM

📄 每日论文速递 · Agent & LLM

📄 每日论文速递 · Agent & LLM

2025年5月5日 · 周一


1. MapCoder: Multi-Agent Code Generation for Competitive Problems

作者 / 机构 | Md. Ashraful Islam et al.

一句话:提出一个多智能体代码生成框架,通过模拟人类程序员的完整解题流程(回忆相似问题→规划→代码生成→调试),在多个代码竞赛 benchmark 上刷新 SOTA。

为什么值得看:把竞赛编程的解题过程拆成 4 个专门的 Agent 角色来协作,不是简单的 prompt 拼接而是有明确的信息流设计。在 HumanEval、MBPP、CodeContests 等多个 benchmark 上都有显著提升,说明多 Agent 分工在代码生成任务上是有实际收益的。对设计 Coding Agent 系统架构有直接参考价值。


2. AutoCodeRover: Autonomous Program Improvement

作者 / 机构 | Yuntong Zhang et al., NUS

一句话:一个自主代码修复 Agent,结合代码搜索 API 和分层定位策略,在 SWE-bench 上实现了高效的 bug 定位和修复。

为什么值得看:跟 SWE-Agent 走不同路线——不是让 LLM 直接操作文件系统,而是设计了程序结构感知的搜索接口,让 Agent 能在 AST 层面定位问题。在 SWE-bench lite 上的修复率很能打,且 token 消耗远低于暴力方案。对做 SE Agent 的同学来说,这个"给 Agent 什么粒度的工具"的设计决策值得深入研究。


3. Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

作者 / 机构 | Benjamin Warner et al., Answer.AI & LightOn

一句话:重新设计了一个现代化的双向编码器(ModernBERT),支持 8192 token 长上下文,推理速度和显存效率大幅优于现有 encoder 模型。

为什么值得看:Agent 系统里做 retrieval、分类、reranking 还是得靠 encoder 模型,但 BERT 系列太老了。这篇把 RoPE、Flash Attention、交替 attention 等现代技术塞进 encoder 架构,推理速度快 2x 且原生支持长文本。如果你在做 Agent 的 RAG 模块或者需要高效的文本表征,这个是直接可用的基础设施升级。


4. Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

作者 / 机构 | Weize Chen et al., THU & Tencent

一句话:提出一个"Agent 互联网"框架,让不同架构、不同能力的异构 Agent 能动态发现彼此并组队协作完成复杂任务。

为什么值得看:Multi-agent 研究大多假设所有 agent 是同质的或预先编排好的,这篇解决的是更现实的问题:当你有一堆不同团队做的 Agent,怎么让它们即插即用地协作?设计了 Agent 注册、能力发现、动态组队的机制。对做 Agent 平台和编排层的人来说,这个架构思路比较有启发性。


5. Agent-as-a-Judge: Evaluate Agents with Agents

作者 / 机构 | Zhiwei He et al.

一句话:提出用 Agent 来评估 Agent 的表现,而不是传统的静态 metric 或人工评审,并发布了配套的评测框架。

为什么值得看:Agent 评测是当前最大的痛点之一——现有 benchmark 要么太静态,要么评测维度太单一。这篇的思路是让评估者本身也是一个 Agent,能重放被评估 Agent 的决策过程、验证中间步骤。对做 Agent 质量保障和评测体系的团队,这个方向值得跟进。


对哪篇感兴趣可以展开聊聊 👆

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-05-05 09:01:21
源文件
2026-05-05_09-01-21.md
链接数
5