Agent & LLM · 2026年5月7日

每日论文速递 · Agent & LLM

💡 一句话：提出 Context-ReAct 范式，给 Agent 配备 Skip/Compress/Rollback/Snippet/Delete 五个上下文原子操作，让 Agent 能动态管理自己的工作记忆，在 BrowseComp 上大幅超越 DeepResearch。

2026-05-07 09:08:577 篇论文条目

I have enough papers now. I've found 7 highly relevant papers. Let me compile the report.

📄 每日论文速递 · Agent & LLM

日期：2026-05-07

1. LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents

LongSeeker：长程搜索智能体的弹性上下文编排

🎯 关联：极高 — 直接解决 Agent 长程执行中的 memory/context 管理问题，InternOS 中多步协调任务面临同样的上下文膨胀挑战，这套弹性编排思路可以直接借鉴。

2. Uno-Orchestra: Parsimonious Agent Routing via Selective Delegation

Uno-Orchestra：通过选择性委派实现节俭的 Agent 路由

💡 一句话：用统一的 RL 策略同时学习"任务要不要拆"和"子任务派给谁"，在 13 个 benchmark 上以 1/10 成本超过所有 workflow baseline 16%。

🎯 关联：极高 — 这就是 Agent 平台的核心调度问题：什么时候拆解任务、怎么选 worker。Uno-Orchestra 的 selective delegation 策略对 InternOS 的编排引擎设计有直接参考价值。

3. Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

工具就够了吗？揭示 LLM Agent 中的"工具使用税"

💡 一句话：发现工具调用协议本身会引入性能损失（"工具税"），在有语义干扰时工具增强推理不一定比纯 CoT 好，并提出 G-STEP 推理时门控来缓解。

🎯 关联：高 — 做 Agent 平台必须理解工具调用的代价。这篇论文帮你判断什么场景该让 Agent 调工具、什么场景纯推理更优，对 Agent 策略选择有实际指导。

4. The Cost of Consensus: Isolated Self-Correction Prevails Over Unguided Homogeneous Multi-Agent Debate

共识的代价：单体自我纠正击败无引导的同质多智能体辩论

💡 一句话：在 7-8B 模型中，同质多 Agent 辩论不仅没用还有害——会出现谄媚从众、上下文脆弱和共识坍塌，单 Agent 自纠正反而更省更好。

🎯 关联：高 — 如果你的多 Agent 系统用的是同质模型做协作验证，这篇告诉你什么时候多 Agent 是浪费。InternOS 设计 Agent 协作策略时需要避开这些坑。

5. AgentReputation: A Decentralized Agentic AI Reputation Framework

AgentReputation：去中心化 AI Agent 信誉框架

💡 一句话：为去中心化 Agent 市场提出三层信誉框架（任务执行层/信誉服务层/持久化层），包含领域条件化信誉卡和风险自适应验证升级机制。

🎯 关联：高 — InternOS 作为多 Agent 协调系统，如何评估和路由不同能力的 Agent 是核心问题。信誉框架的思路（领域条件化、验证强度分级）可以参考。

6. TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO：拓扑与不确定性感知的直接偏好优化

💡 一句话：DPO 升级版——不只看答案对不对，还看推理过程的拓扑结构是否合理，用不确定性加权来训练，在推理任务上达到 PPO 水平但保持 DPO 的简单性。ICML 2026。

🎯 关联：中高 — LLM 对齐直接影响 Agent 底层模型质量。如果 Anna 团队在微调 Agent 用的模型，这个比标准 DPO 更关注推理质量的方法值得关注。

7. Improving LLM Code Generation via Requirement-Aware Curriculum Reinforcement Learning

通过需求感知课程强化学习提升 LLM 代码生成

💡 一句话：借鉴软件需求工程思想，让 RL 训练按照模型实际感知的需求难度自适应调整课程，平均提升代码生成 Pass@1 1.2-5.6%。

🎯 关联：中高 — Agent 平台中 coding agent 是核心能力之一。这个框架的"需求难度感知+自适应课程"策略对训练更好的 code agent 有实用价值。

本日要点总结：今天最值得深读的是前两篇——LongSeeker 的弹性上下文管理和 Uno-Orchestra 的统一路由策略，两者分别解决了 Agent 系统中"记忆怎么管"和"任务怎么派"这两个核心工程问题。第4篇也很有启发：别盲目堆多 Agent，有时候单 Agent 自纠正就够了。