Agent & LLM · 2026年6月26日

每日论文速递 · Agent & LLM

💡 一句话：让 GUI Agent 自己探索环境、沉淀高层任务经验，再用 hindsight 合成训练数据，明显提升小模型的跨网站规划能力。

2026-06-26 09:03:388 篇论文条目

📄 每日论文速递 · Agent & LLM

日期：2026-06-26

1. Empowering GUI Agents via Autonomous Experience Exploration and Hindsight Experience Utilization for Task Planning

通过自主经验探索和 hindsight 经验利用增强 GUI Agent 任务规划

🔗 https://arxiv.org/abs/2606.27330

💡 一句话：让 GUI Agent 自己探索环境、沉淀高层任务经验，再用 hindsight 合成训练数据，明显提升小模型的跨网站规划能力。

🎯 关联：很高。Anna 做 Agent 平台时，不能只靠 prompt plan，需要把“执行经验 → 可复用 planning data → agent 能力升级”做成闭环。

2. Semantic Early-Stopping for Iterative LLM Agent Loops

面向迭代式 LLM Agent 循环的语义早停机制

🔗 https://arxiv.org/abs/2606.27009

💡 一句话：别再粗暴用 max_iterations 停 Agent loop，而是看连续草稿的语义变化和质量变化，能在质量不掉的情况下省约 38% token。

🎯 关联：极高。InternOS / Agent runtime 里所有 Writer-Critic、Planner-Executor、RAG loop 都需要 termination policy；这是直接能落到调度器里的机制。

3. NOVA: A Verification-Aware Agent Harness for Architecture Evolution in Industrial Recommender Systems

NOVA：面向工业推荐系统架构演进的验证感知 Agent Harness

🔗 https://arxiv.org/abs/2606.27243

💡 一句话：把 coding agent 放进“结构语义检查、本地可执行、离线指标、线上影响”的验证级联里，避免只生成 runnable 但业务上错误的代码。

🎯 关联：极高。Anna 做 AI Agent 平台最该吸这个：Agent 不是代码生成器，是带 verification cascade、风险分级和 human oversight 的生产系统。

4. When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models

什么时候组合多个语言模型真的有用？67 个前沿模型上的共失败上限分析

🔗 https://arxiv.org/abs/2606.27288

💡 一句话：多模型 routing/voting/MoA 的收益上限取决于“所有模型同时错”的比例，不是模型堆得越多越好。

🎯 关联：很高。对 Agent 平台的模型路由很关键：别迷信 multi-agent ensemble，调度器要估计 co-failure，而不是只看单模型分数或 pairwise correlation。

5. Kiko: Programming Agents to Enact Interaction Protocols

Kiko：用交互协议来编程 Agent

🔗 https://arxiv.org/abs/2606.26156

💡 一句话：提出一种 protocol-based agent programming model，把 Agent 的内部决策逻辑和公开消息行为对齐起来，并保证协议合规。

🎯 关联：很高。InternOS 的组织协作本质就是 protocol enactment：谁能发什么消息、何时承诺、如何推进任务，这篇比普通 LLM Agent 框架更接近底层抽象。

6. Mostly Automatic Translation of Language Interpreters from C to Safe Rust

从 C 到 Safe Rust 的语言解释器半自动迁移

🔗 https://arxiv.org/abs/2606.27122

💡 一句话：用 feature reduction + multi-agent coding workflow，把复杂解释器迁移拆成可验证里程碑，少量人工介入即可完成。

🎯 关联：高。它的重点不是 Rust，而是“长周期代码任务如何拆 milestone、验证、反馈、继续推进”；这正是软件工程 Agent 要解决的核心。

7. Ask, Don't Judge: Binary Questions for Interpretable LLM Evaluation and Self-Improvement

不要直接打分，改问二元问题：可解释 LLM 评估与自我改进

🔗 https://arxiv.org/abs/2606.27226

💡 一句话：把开放式评价拆成一组原子二元问题，再聚合成多维分数，让 LLM judge 更可解释，也能反过来改 prompt。

🎯 关联：高。Agent 平台离不开 evaluator；这篇给的是可 debug 的评价结构，适合做 InternOS 里任务完成度、承诺履约、输出质量的检查器。

8. Prompt Injection in Automated Résumé Screening with Large Language Models: Single and Multi-Injection Settings

LLM 自动简历筛选中的 Prompt Injection：单点与多点注入场景

🔗 https://arxiv.org/abs/2606.27287

💡 一句话：研究发现 prompt injection 在少数人使用、候选人质量接近时最有效，但当注入普遍化后收益会崩掉。

🎯 关联：中高。对 Agent 平台安全很现实：任何读取用户文档、网页、任务描述的 Agent 都会遇到 adversarial instruction，输入隔离和权限边界不能后补。