Agent & LLM · 2026年6月28日

每日论文速递 · Agent & LLM

💡 一句话：让 GUI Agent 自己探索环境、沉淀高层任务经验，再用 hindsight 数据训练小模型，重点解决小 MLLM 的跨网站规划泛化问题。

2026-06-28 09:02:558 篇论文条目

📄 每日论文速递 · Agent & LLM

日期：2026-06-28

1. Empowering GUI Agents via Autonomous Experience Exploration and Hindsight Experience Utilization for Task Planning

通过自主经验探索与 hindsight experience 提升 GUI Agent 任务规划能力

💡 一句话：让 GUI Agent 自己探索环境、沉淀高层任务经验，再用 hindsight 数据训练小模型，重点解决小 MLLM 的跨网站规划泛化问题。

🎯 关联：很高。Anna 做 Agent 平台时，experience replay / task decomposition / OOD planning 都是核心能力，值得重点看。

2. Semantic Early-Stopping for Iterative LLM Agent Loops

迭代式 LLM Agent Loop 的语义早停机制

🔗 https://arxiv.org/abs/2606.27009

💡 一句话：不用固定 max_iterations，而是根据连续草稿的语义变化和质量变化决定 Agent loop 什么时候停，能省 38% token 且质量基本不掉。

🎯 关联：非常高。InternOS/Agent 平台里多轮协作、critic-revise、workflow loop 都会遇到“什么时候停”的问题，这篇可以直接转成调度策略。

3. When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models

什么时候组合多个语言模型真的有用？67 个前沿模型上的共失败上限分析

🔗 https://arxiv.org/abs/2606.27288

💡 一句话：多模型 routing/voting/MoA 的收益上限取决于“所有模型同时错”的概率，不是简单堆模型就能变强。

🎯 关联：非常高。Anna 如果要做模型路由、多 Agent 投票、ensemble，这篇是在提醒：系统设计重点不是“多”，而是识别失败互补性。

4. NOVA: A Verification-Aware Agent Harness for Architecture Evolution in Industrial Recommender Systems

NOVA：面向工业推荐系统架构演进的验证感知 Agent Harness

🔗 https://arxiv.org/abs/2606.27243

💡 一句话：把 LLM coding agent 放进带 verification cascade、trajectory memory、风险分级和人工接管的工业架构演进闭环里，避免“代码能跑但架构是错的”。

🎯 关联：很高。这个对 Agent 平台工程化很有价值：不是让 Agent 写代码，而是设计验证、回滚、风险分级、人机协作的生产 harness。

5. Kiko: Programming Agents to Enact Interaction Protocols

Kiko：用协议化编程模型实现多智能体交互

🔗 https://arxiv.org/abs/2606.26156

💡 一句话：提出一种 protocol-based agent programming model，把通信协议、决策逻辑和消息发送约束分开，让多 Agent 系统更可验证。

🎯 关联：高。InternOS 如果要做组织协作系统，不能只靠 prompt 聊天，最终需要协议、状态机、合法消息和责任边界；这篇方向对。

6. OpenRCA 2.0: From Outcome Labels to Causal Process Supervision

OpenRCA 2.0：从结果标签走向因果过程监督

🔗 https://arxiv.org/abs/2606.27154

💡 一句话：给 root cause analysis Agent 加入 step-wise causal path 标注，发现模型经常能猜中原因服务，但讲不清可靠的因果传播链。

🎯 关联：中高。对 Anna 做 Agent 评测很有启发：不要只评最终答案，要评过程是否 grounded，尤其适合 InternOS 的任务追踪/责任链设计。

7. Ask, Don’t Judge: Binary Questions for Interpretable LLM Evaluation and Self-Improvement

不要直接打分：用二元问题做可解释 LLM 评估与自我改进

🔗 https://arxiv.org/abs/2606.27226

💡 一句话：把开放式评价拆成一组 atomic binary questions，再聚合成多维分数，比黑盒 LLM judge 更可解释、也能反过来优化 prompt。

🎯 关联：高。Anna 的 Agent 平台需要可解释 evaluation，不然 multi-agent 输出质量没法 debug；这篇可以变成 eval rubric 生成器。

8. CHIA: An open-source framework for principled, agentic AI-driven hardware/software co-design research

CHIA：面向 Agentic AI 硬件/软件协同设计研究的开源框架

🔗 https://arxiv.org/abs/2606.27350

💡 一句话：把 agentic design flow 表达成循环图，节点可以是仿真器、build system、AI model、evolutionary coding agent，并提供隔离、profiling、容错和大规模运行能力。

🎯 关联：中高。领域是硬件/系统 co-design，但它的 “loop graph + tool nodes + isolation + profiling + fault tolerance” 对 Agent orchestration 平台很值得抄架构。