Agent & LLM · 2026年5月7日
每日论文速递 · Agent & LLM
💡 一句话:提出 Context-ReAct 范式,给 Agent 配备 Skip/Compress/Rollback/Snippet/Delete 五个上下文原子操作,让 Agent 能动态管理自己的工作记忆,在 BrowseComp 上大幅超越 DeepResearch。
I have enough papers now. I've found 7 highly relevant papers. Let me compile the report.
📄 每日论文速递 · Agent & LLM
日期:2026-05-07
1. LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents
LongSeeker:长程搜索智能体的弹性上下文编排
🔗 https://arxiv.org/abs/2605.05191
💡 一句话:提出 Context-ReAct 范式,给 Agent 配备 Skip/Compress/Rollback/Snippet/Delete 五个上下文原子操作,让 Agent 能动态管理自己的工作记忆,在 BrowseComp 上大幅超越 DeepResearch。
🎯 关联:极高 — 直接解决 Agent 长程执行中的 memory/context 管理问题,InternOS 中多步协调任务面临同样的上下文膨胀挑战,这套弹性编排思路可以直接借鉴。
2. Uno-Orchestra: Parsimonious Agent Routing via Selective Delegation
Uno-Orchestra:通过选择性委派实现节俭的 Agent 路由
🔗 https://arxiv.org/abs/2605.05007
💡 一句话:用统一的 RL 策略同时学习"任务要不要拆"和"子任务派给谁",在 13 个 benchmark 上以 1/10 成本超过所有 workflow baseline 16%。
🎯 关联:极高 — 这就是 Agent 平台的核心调度问题:什么时候拆解任务、怎么选 worker。Uno-Orchestra 的 selective delegation 策略对 InternOS 的编排引擎设计有直接参考价值。
3. Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents
工具就够了吗?揭示 LLM Agent 中的"工具使用税"
🔗 https://arxiv.org/abs/2605.00136
💡 一句话:发现工具调用协议本身会引入性能损失("工具税"),在有语义干扰时工具增强推理不一定比纯 CoT 好,并提出 G-STEP 推理时门控来缓解。
🎯 关联:高 — 做 Agent 平台必须理解工具调用的代价。这篇论文帮你判断什么场景该让 Agent 调工具、什么场景纯推理更优,对 Agent 策略选择有实际指导。
4. The Cost of Consensus: Isolated Self-Correction Prevails Over Unguided Homogeneous Multi-Agent Debate
共识的代价:单体自我纠正击败无引导的同质多智能体辩论
🔗 https://arxiv.org/abs/2605.00914
💡 一句话:在 7-8B 模型中,同质多 Agent 辩论不仅没用还有害——会出现谄媚从众、上下文脆弱和共识坍塌,单 Agent 自纠正反而更省更好。
🎯 关联:高 — 如果你的多 Agent 系统用的是同质模型做协作验证,这篇告诉你什么时候多 Agent 是浪费。InternOS 设计 Agent 协作策略时需要避开这些坑。
5. AgentReputation: A Decentralized Agentic AI Reputation Framework
AgentReputation:去中心化 AI Agent 信誉框架
🔗 https://arxiv.org/abs/2605.00073
💡 一句话:为去中心化 Agent 市场提出三层信誉框架(任务执行层/信誉服务层/持久化层),包含领域条件化信誉卡和风险自适应验证升级机制。
🎯 关联:高 — InternOS 作为多 Agent 协调系统,如何评估和路由不同能力的 Agent 是核心问题。信誉框架的思路(领域条件化、验证强度分级)可以参考。
6. TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization
TUR-DPO:拓扑与不确定性感知的直接偏好优化
🔗 https://arxiv.org/abs/2605.00224
💡 一句话:DPO 升级版——不只看答案对不对,还看推理过程的拓扑结构是否合理,用不确定性加权来训练,在推理任务上达到 PPO 水平但保持 DPO 的简单性。ICML 2026。
🎯 关联:中高 — LLM 对齐直接影响 Agent 底层模型质量。如果 Anna 团队在微调 Agent 用的模型,这个比标准 DPO 更关注推理质量的方法值得关注。
7. Improving LLM Code Generation via Requirement-Aware Curriculum Reinforcement Learning
通过需求感知课程强化学习提升 LLM 代码生成
🔗 https://arxiv.org/abs/2605.00433
💡 一句话:借鉴软件需求工程思想,让 RL 训练按照模型实际感知的需求难度自适应调整课程,平均提升代码生成 Pass@1 1.2-5.6%。
🎯 关联:中高 — Agent 平台中 coding agent 是核心能力之一。这个框架的"需求难度感知+自适应课程"策略对训练更好的 code agent 有实用价值。
本日要点总结:今天最值得深读的是前两篇——LongSeeker 的弹性上下文管理和 Uno-Orchestra 的统一路由策略,两者分别解决了 Agent 系统中"记忆怎么管"和"任务怎么派"这两个核心工程问题。第4篇也很有启发:别盲目堆多 Agent,有时候单 Agent 自纠正就够了。