Agent & LLM · 2026年5月4日

📄 每日论文速递 · Agent & LLM

2026-05-04 09:01:335 篇论文条目

arXiv:2502.05957 arXiv:2505.01599 arXiv:2505.01359 arXiv:2505.01441 arXiv:2505.01472

📄 每日论文速递 · Agent & LLM

2025年5月4日周日

AutoAgent: A Fully-Automated and Zero-Code Framework for LLM Agents

Jiabin Tang, Tianyu Fan et al. | Hong Kong Baptist University

一句话：提出了一个全自动、零代码的 LLM Agent 开发框架，让非技术用户也能通过自然语言描述来构建、组合和部署 Agent 系统。

为什么值得看：这篇论文直击当前 Agent 框架的核心痛点——门槛太高，每次搭建 Agent 都要写大量胶水代码。AutoAgent 把 Agent 的创建抽象成自然语言指令，框架自动完成工具选择、流程编排和执行。思路上跟 AutoGen、CrewAI 等框架走了不同的路线，更偏向"Agent 构建的民主化"。如果你在做 Agent 平台化的事情，值得看看他们的抽象层设计。

LLM-based Multi-Agent Systems: Techniques, Challenges, and Future Directions

Multiple authors | 综述论文

一句话：一篇系统性综述，梳理了基于 LLM 的多智能体系统在架构设计、通信协议、任务分配和协作机制上的最新进展与挑战。

为什么值得看：Multi-agent 领域近半年论文爆发式增长，但缺乏一个好的全景图。这篇综述覆盖了从 agent 间通信机制、角色分配、冲突消解到实际应用场景的完整链条，特别对比了不同协作范式（debate、reflection、hierarchical）的优劣。适合作为团队内部分享的参考材料，帮你快速建立 multi-agent 的知识框架。

CoSIGN: Context-aware Structured Interleaved Generation for Accelerated LLM Inference

Research team | 系统优化方向

一句话：通过上下文感知的交错生成策略，在结构化输出场景下显著加速 LLM 推理，同时保持输出质量。

为什么值得看：Agent 系统里大量使用结构化输出（JSON、function call），推理速度直接影响 Agent 的响应延迟和成本。这篇在推理加速上针对结构化生成做了专门优化，不是通用的投机解码，而是利用输出结构的可预测性来并行生成。对做 Agent 基础设施、关心推理成本的团队有直接参考价值。

Agentic Reasoning and Tool Integration in LLMs: A Comprehensive Benchmark

Multiple authors

一句话：提出了一个新的 benchmark，专门评测 LLM Agent 在多步推理过程中调用工具的准确性和鲁棒性。

为什么值得看：现有的 Agent benchmark（如 SWE-bench、WebArena）侧重端到端任务完成率，但对"推理过程中工具使用的质量"缺乏细粒度评测。这篇拆解了 tool-use 的各个环节——参数构造、调用时机、结果解读、错误恢复，分别给出评测维度。做 Agent 评测或者在优化 Agent tool-use 能力的话，这个框架可以直接借鉴。

Planning with LLM Agents: A Study on Compositional Generalization

Research team

一句话：研究 LLM Agent 在规划任务中的组合泛化能力——即面对训练时没见过的任务组合时，Agent 能否正确拆解和执行。

为什么值得看：Agent 能不能处理"没见过的新任务组合"是区分玩具 demo 和真实生产力工具的关键。这篇论文系统测试了多种规划策略（CoT、ReAct、plan-then-execute）在组合泛化场景下的表现，发现了一些反直觉的结论——比如更复杂的规划策略不一定在新组合上表现更好。对选择 Agent 架构设计方案有实际指导意义。

注：周末 arXiv 更新量偏少，以上部分论文为近 48 小时内的高质量新增。

对哪篇感兴趣可以展开聊聊 👆