Agent & LLM · 2026年7月1日
每日论文速递 · Agent & LLM
💡 一句话:提出一个不用完整训练、直接评估 agent 中间步骤监督信号质量的 testbed,专门解决 long-horizon agent reward 太稀疏的问题。
📄 每日论文速递 · Agent & LLM
日期:2026-07-01
1. QVal:低成本评估长周期 LLM Agent 的密集监督信号
QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents
🔗 https://arxiv.org/abs/2606.32034
💡 一句话:提出一个不用完整训练、直接评估 agent 中间步骤监督信号质量的 testbed,专门解决 long-horizon agent reward 太稀疏的问题。
🎯 关联:很高。Anna 做 Agent 平台时,长期任务的过程评价、trajectory 打分、执行质量监控都会撞到这个问题;这篇可以直接启发 InternOS 的「过程态评估」机制。
2. LLM Agent 的生成式技能组合
Generative Skill Composition for LLM Agents
🔗 https://arxiv.org/abs/2606.32025
💡 一句话:把 skill selection 从简单 retrieval 升级成“选哪些 skill、选几个、按什么顺序执行”的结构化生成问题。
🎯 关联:极高。Anna 的 Agent 平台如果要做 reusable skills / tools / workflows,这篇的 SkillComposer 思路比“embedding 检索几个工具塞进 prompt”成熟很多。
3. Agent 互操作协议中的治理缺口:MCP、A2A、ACP 不能表达什么
Governance Gaps in Agent Interoperability Protocols: What MCP, A2A, and ACP Cannot Express
🔗 https://arxiv.org/abs/2606.31498
💡 一句话:系统分析 MCP/A2A/ACP 等协议,指出它们能做工具调用和消息交换,但表达不了成员资格、投票、异议保留、审计回放等治理语义。
🎯 关联:极高。这篇非常贴 InternOS:组织协调系统不是简单 agent communication,而是 governance layer;Anna 应该重点看它的六维 taxonomy。
4. AxDafny:Dafny 中的 Agentic Verified Code Generation
AxDafny: Agentic Verified Code Generation in Dafny
🔗 https://arxiv.org/abs/2606.32007
💡 一句话:让 agent 不只生成代码,还生成 invariants、assertions、termination arguments,并用 verifier 迭代修复。
🎯 关联:高。对代码生成 agent 很有价值,尤其是“生成-验证-修复”的闭环;Anna 如果做 sandbox/code agent,形式化 verifier 可以作为更硬的 execution feedback。
5. MECoBench:具身环境中多模态 Agent 协作的系统研究
MECoBench: A Systematic Study of Multimodal Agent Collaboration in Embodied Environments
🔗 https://arxiv.org/abs/2606.31966
💡 一句话:构建多模态 embodied cooperation benchmark,比较不同协作结构和沟通模式对任务完成率、鲁棒性、协调成本的影响。
🎯 关联:中高。虽然偏 embodied,但它关于“协作收益 vs 协调复杂度”的结论,对 Anna 设计多 agent 编排、角色分工、通信协议很有参考价值。
6. ForecastAgentSearch:面向地缘事件预测的多专家 Agent 搜索系统
ForecastAgentSearch: Towards a Multi-Expert Agent Search System for Geopolitical Event Forecasting
🔗 https://arxiv.org/abs/2606.31665
💡 一句话:把复杂预测任务拆成“搜索合适专家 agent、排序、组合分析、生成带不确定性的预测”的 multi-expert agent pipeline。
🎯 关联:高。它不是单纯 multi-agent chat,而是 agent profiling / retrieval / ranking / coordination,这正是 Agent 平台需要的调度和编排能力。
7. 基于元认知反馈的强化学习让 LLM 更诚实表达不确定性
Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs
🔗 https://arxiv.org/abs/2606.32032
💡 一句话:用模型自我判断质量作为 RL 信号,让 LLM 更准确表达“我知道/我不知道”,减少高置信幻觉。
🎯 关联:高。Agent 系统最怕 confidently wrong;这篇对 InternOS 的承诺追踪、任务风险提示、uncertainty-aware planning 都有直接价值。
8. 通过技能蒸馏扩展浏览器行为克隆
Scalable Behaviour Cloning on Browser Using via Skill Distillation
🔗 https://arxiv.org/abs/2606.32014
💡 一句话:从人类浏览器操作轨迹中蒸馏自然语言 skill,并组织成 skill graph,让 browser agent 可检索、复用、组合。
🎯 关联:很高。Anna 如果做 AI sandbox / browser agent,这篇的核心判断是对的:瓶颈不是点击能力,而是可复用的操作技能和 skill memory。