Agent & LLM · 2026年7月1日

每日论文速递 · Agent & LLM

💡 一句话：提出一个不用完整训练、直接评估 agent 中间步骤监督信号质量的 testbed，专门解决 long-horizon agent reward 太稀疏的问题。

2026-07-01 09:02:348 篇论文条目

📄 每日论文速递 · Agent & LLM

日期：2026-07-01

1. QVal：低成本评估长周期 LLM Agent 的密集监督信号

QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

💡 一句话：提出一个不用完整训练、直接评估 agent 中间步骤监督信号质量的 testbed，专门解决 long-horizon agent reward 太稀疏的问题。

🎯 关联：很高。Anna 做 Agent 平台时，长期任务的过程评价、trajectory 打分、执行质量监控都会撞到这个问题；这篇可以直接启发 InternOS 的「过程态评估」机制。

2. LLM Agent 的生成式技能组合

Generative Skill Composition for LLM Agents

🔗 https://arxiv.org/abs/2606.32025

💡 一句话：把 skill selection 从简单 retrieval 升级成“选哪些 skill、选几个、按什么顺序执行”的结构化生成问题。

🎯 关联：极高。Anna 的 Agent 平台如果要做 reusable skills / tools / workflows，这篇的 SkillComposer 思路比“embedding 检索几个工具塞进 prompt”成熟很多。

3. Agent 互操作协议中的治理缺口：MCP、A2A、ACP 不能表达什么

Governance Gaps in Agent Interoperability Protocols: What MCP, A2A, and ACP Cannot Express

💡 一句话：系统分析 MCP/A2A/ACP 等协议，指出它们能做工具调用和消息交换，但表达不了成员资格、投票、异议保留、审计回放等治理语义。

🎯 关联：极高。这篇非常贴 InternOS：组织协调系统不是简单 agent communication，而是 governance layer；Anna 应该重点看它的六维 taxonomy。

4. AxDafny：Dafny 中的 Agentic Verified Code Generation

AxDafny: Agentic Verified Code Generation in Dafny

💡 一句话：让 agent 不只生成代码，还生成 invariants、assertions、termination arguments，并用 verifier 迭代修复。

🎯 关联：高。对代码生成 agent 很有价值，尤其是“生成-验证-修复”的闭环；Anna 如果做 sandbox/code agent，形式化 verifier 可以作为更硬的 execution feedback。

5. MECoBench：具身环境中多模态 Agent 协作的系统研究

MECoBench: A Systematic Study of Multimodal Agent Collaboration in Embodied Environments

💡 一句话：构建多模态 embodied cooperation benchmark，比较不同协作结构和沟通模式对任务完成率、鲁棒性、协调成本的影响。

🎯 关联：中高。虽然偏 embodied，但它关于“协作收益 vs 协调复杂度”的结论，对 Anna 设计多 agent 编排、角色分工、通信协议很有参考价值。

6. ForecastAgentSearch：面向地缘事件预测的多专家 Agent 搜索系统

ForecastAgentSearch: Towards a Multi-Expert Agent Search System for Geopolitical Event Forecasting

💡 一句话：把复杂预测任务拆成“搜索合适专家 agent、排序、组合分析、生成带不确定性的预测”的 multi-expert agent pipeline。

🎯 关联：高。它不是单纯 multi-agent chat，而是 agent profiling / retrieval / ranking / coordination，这正是 Agent 平台需要的调度和编排能力。

7. 基于元认知反馈的强化学习让 LLM 更诚实表达不确定性

Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs

💡 一句话：用模型自我判断质量作为 RL 信号，让 LLM 更准确表达“我知道/我不知道”，减少高置信幻觉。

🎯 关联：高。Agent 系统最怕 confidently wrong；这篇对 InternOS 的承诺追踪、任务风险提示、uncertainty-aware planning 都有直接价值。

8. 通过技能蒸馏扩展浏览器行为克隆

Scalable Behaviour Cloning on Browser Using via Skill Distillation

💡 一句话：从人类浏览器操作轨迹中蒸馏自然语言 skill，并组织成 skill graph，让 browser agent 可检索、复用、组合。

🎯 关联：很高。Anna 如果做 AI sandbox / browser agent，这篇的核心判断是对的：瓶颈不是点击能力，而是可复用的操作技能和 skill memory。