Agent & LLM · 2026年6月26日
每日论文速递 · Agent & LLM
💡 一句话:让 GUI Agent 自己探索环境、沉淀高层任务经验,再用 hindsight 合成训练数据,明显提升小模型的跨网站规划能力。
📄 每日论文速递 · Agent & LLM
日期:2026-06-26
1. Empowering GUI Agents via Autonomous Experience Exploration and Hindsight Experience Utilization for Task Planning
通过自主经验探索和 hindsight 经验利用增强 GUI Agent 任务规划
🔗 https://arxiv.org/abs/2606.27330
💡 一句话:让 GUI Agent 自己探索环境、沉淀高层任务经验,再用 hindsight 合成训练数据,明显提升小模型的跨网站规划能力。
🎯 关联:很高。Anna 做 Agent 平台时,不能只靠 prompt plan,需要把“执行经验 → 可复用 planning data → agent 能力升级”做成闭环。
2. Semantic Early-Stopping for Iterative LLM Agent Loops
面向迭代式 LLM Agent 循环的语义早停机制
🔗 https://arxiv.org/abs/2606.27009
💡 一句话:别再粗暴用 max_iterations 停 Agent loop,而是看连续草稿的语义变化和质量变化,能在质量不掉的情况下省约 38% token。
🎯 关联:极高。InternOS / Agent runtime 里所有 Writer-Critic、Planner-Executor、RAG loop 都需要 termination policy;这是直接能落到调度器里的机制。
3. NOVA: A Verification-Aware Agent Harness for Architecture Evolution in Industrial Recommender Systems
NOVA:面向工业推荐系统架构演进的验证感知 Agent Harness
🔗 https://arxiv.org/abs/2606.27243
💡 一句话:把 coding agent 放进“结构语义检查、本地可执行、离线指标、线上影响”的验证级联里,避免只生成 runnable 但业务上错误的代码。
🎯 关联:极高。Anna 做 AI Agent 平台最该吸这个:Agent 不是代码生成器,是带 verification cascade、风险分级和 human oversight 的生产系统。
4. When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models
什么时候组合多个语言模型真的有用?67 个前沿模型上的共失败上限分析
🔗 https://arxiv.org/abs/2606.27288
💡 一句话:多模型 routing/voting/MoA 的收益上限取决于“所有模型同时错”的比例,不是模型堆得越多越好。
🎯 关联:很高。对 Agent 平台的模型路由很关键:别迷信 multi-agent ensemble,调度器要估计 co-failure,而不是只看单模型分数或 pairwise correlation。
5. Kiko: Programming Agents to Enact Interaction Protocols
Kiko:用交互协议来编程 Agent
🔗 https://arxiv.org/abs/2606.26156
💡 一句话:提出一种 protocol-based agent programming model,把 Agent 的内部决策逻辑和公开消息行为对齐起来,并保证协议合规。
🎯 关联:很高。InternOS 的组织协作本质就是 protocol enactment:谁能发什么消息、何时承诺、如何推进任务,这篇比普通 LLM Agent 框架更接近底层抽象。
6. Mostly Automatic Translation of Language Interpreters from C to Safe Rust
从 C 到 Safe Rust 的语言解释器半自动迁移
🔗 https://arxiv.org/abs/2606.27122
💡 一句话:用 feature reduction + multi-agent coding workflow,把复杂解释器迁移拆成可验证里程碑,少量人工介入即可完成。
🎯 关联:高。它的重点不是 Rust,而是“长周期代码任务如何拆 milestone、验证、反馈、继续推进”;这正是软件工程 Agent 要解决的核心。
7. Ask, Don't Judge: Binary Questions for Interpretable LLM Evaluation and Self-Improvement
不要直接打分,改问二元问题:可解释 LLM 评估与自我改进
🔗 https://arxiv.org/abs/2606.27226
💡 一句话:把开放式评价拆成一组原子二元问题,再聚合成多维分数,让 LLM judge 更可解释,也能反过来改 prompt。
🎯 关联:高。Agent 平台离不开 evaluator;这篇给的是可 debug 的评价结构,适合做 InternOS 里任务完成度、承诺履约、输出质量的检查器。
8. Prompt Injection in Automated Résumé Screening with Large Language Models: Single and Multi-Injection Settings
LLM 自动简历筛选中的 Prompt Injection:单点与多点注入场景
🔗 https://arxiv.org/abs/2606.27287
💡 一句话:研究发现 prompt injection 在少数人使用、候选人质量接近时最有效,但当注入普遍化后收益会崩掉。
🎯 关联:中高。对 Agent 平台安全很现实:任何读取用户文档、网页、任务描述的 Agent 都会遇到 adversarial instruction,输入隔离和权限边界不能后补。