Agent & LLM · 2026年6月28日
每日论文速递 · Agent & LLM
💡 一句话:让 GUI Agent 自己探索环境、沉淀高层任务经验,再用 hindsight 数据训练小模型,重点解决小 MLLM 的跨网站规划泛化问题。
📄 每日论文速递 · Agent & LLM
日期:2026-06-28
1. Empowering GUI Agents via Autonomous Experience Exploration and Hindsight Experience Utilization for Task Planning
通过自主经验探索与 hindsight experience 提升 GUI Agent 任务规划能力
🔗 https://arxiv.org/abs/2606.27330
💡 一句话:让 GUI Agent 自己探索环境、沉淀高层任务经验,再用 hindsight 数据训练小模型,重点解决小 MLLM 的跨网站规划泛化问题。
🎯 关联:很高。Anna 做 Agent 平台时,experience replay / task decomposition / OOD planning 都是核心能力,值得重点看。
2. Semantic Early-Stopping for Iterative LLM Agent Loops
迭代式 LLM Agent Loop 的语义早停机制
🔗 https://arxiv.org/abs/2606.27009
💡 一句话:不用固定 max_iterations,而是根据连续草稿的语义变化和质量变化决定 Agent loop 什么时候停,能省 38% token 且质量基本不掉。
🎯 关联:非常高。InternOS/Agent 平台里多轮协作、critic-revise、workflow loop 都会遇到“什么时候停”的问题,这篇可以直接转成调度策略。
3. When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models
什么时候组合多个语言模型真的有用?67 个前沿模型上的共失败上限分析
🔗 https://arxiv.org/abs/2606.27288
💡 一句话:多模型 routing/voting/MoA 的收益上限取决于“所有模型同时错”的概率,不是简单堆模型就能变强。
🎯 关联:非常高。Anna 如果要做模型路由、多 Agent 投票、ensemble,这篇是在提醒:系统设计重点不是“多”,而是识别失败互补性。
4. NOVA: A Verification-Aware Agent Harness for Architecture Evolution in Industrial Recommender Systems
NOVA:面向工业推荐系统架构演进的验证感知 Agent Harness
🔗 https://arxiv.org/abs/2606.27243
💡 一句话:把 LLM coding agent 放进带 verification cascade、trajectory memory、风险分级和人工接管的工业架构演进闭环里,避免“代码能跑但架构是错的”。
🎯 关联:很高。这个对 Agent 平台工程化很有价值:不是让 Agent 写代码,而是设计验证、回滚、风险分级、人机协作的生产 harness。
5. Kiko: Programming Agents to Enact Interaction Protocols
Kiko:用协议化编程模型实现多智能体交互
🔗 https://arxiv.org/abs/2606.26156
💡 一句话:提出一种 protocol-based agent programming model,把通信协议、决策逻辑和消息发送约束分开,让多 Agent 系统更可验证。
🎯 关联:高。InternOS 如果要做组织协作系统,不能只靠 prompt 聊天,最终需要协议、状态机、合法消息和责任边界;这篇方向对。
6. OpenRCA 2.0: From Outcome Labels to Causal Process Supervision
OpenRCA 2.0:从结果标签走向因果过程监督
🔗 https://arxiv.org/abs/2606.27154
💡 一句话:给 root cause analysis Agent 加入 step-wise causal path 标注,发现模型经常能猜中原因服务,但讲不清可靠的因果传播链。
🎯 关联:中高。对 Anna 做 Agent 评测很有启发:不要只评最终答案,要评过程是否 grounded,尤其适合 InternOS 的任务追踪/责任链设计。
7. Ask, Don’t Judge: Binary Questions for Interpretable LLM Evaluation and Self-Improvement
不要直接打分:用二元问题做可解释 LLM 评估与自我改进
🔗 https://arxiv.org/abs/2606.27226
💡 一句话:把开放式评价拆成一组 atomic binary questions,再聚合成多维分数,比黑盒 LLM judge 更可解释、也能反过来优化 prompt。
🎯 关联:高。Anna 的 Agent 平台需要可解释 evaluation,不然 multi-agent 输出质量没法 debug;这篇可以变成 eval rubric 生成器。
8. CHIA: An open-source framework for principled, agentic AI-driven hardware/software co-design research
CHIA:面向 Agentic AI 硬件/软件协同设计研究的开源框架
🔗 https://arxiv.org/abs/2606.27350
💡 一句话:把 agentic design flow 表达成循环图,节点可以是仿真器、build system、AI model、evolutionary coding agent,并提供隔离、profiling、容错和大规模运行能力。
🎯 关联:中高。领域是硬件/系统 co-design,但它的 “loop graph + tool nodes + isolation + profiling + fault tolerance” 对 Agent orchestration 平台很值得抄架构。