Agent & LLM · 2026年6月23日
每日论文速递 · Agent & LLM
💡 一句话:系统性评估多智能体系统里的 system prompt 优化,回答“调 prompt 到底在哪些 agent workflow / communication / team size 下有用”。
📄 每日论文速递 · Agent & LLM
日期:2026-06-23
1. MAS-PromptBench:什么时候 Prompt Optimization 真能提升 Multi-Agent LLM Systems?
MAS-PromptBench: When Does Prompt Optimization Improve Multi-Agent LLM Systems?
🔗 https://arxiv.org/abs/2606.23664
💡 一句话:系统性评估多智能体系统里的 system prompt 优化,回答“调 prompt 到底在哪些 agent workflow / communication / team size 下有用”。
🎯 关联:很高。Anna 做 Agent 平台时,不能只靠“感觉调 prompt”,这篇给的是 multi-agent prompt 优化的评测面和边界条件。
2. EnterpriseClawBench:来自真实工作场景的企业 Agent Benchmark
EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions
🔗 https://arxiv.org/abs/2606.23654
💡 一句话:从真实企业工作流 session 中抽出 852 个可复现任务,强调评测 enterprise agent 不能只看单分数,还要看产物质量、成本、耗时、技能迁移。
🎯 关联:非常高。InternOS 和 Agent 平台本质都是“企业协作/工作流 agent”,这篇的评测维度值得直接借鉴。
3. SelfCompact:让语言模型 Agent 自己决定何时压缩上下文
Self-Compacting Language Model Agents
🔗 https://arxiv.org/abs/2606.23525
💡 一句话:不是固定 token 阈值做 summarization,而是给 agent 一个 compaction tool + rubric,让它在子任务完成或轨迹收敛时主动压缩上下文。
🎯 关联:非常高。Anna 的 Agent memory / runtime 设计里,context compaction 不能是死规则;这篇给了一个很实用的 execution-time memory management 方案。
4. RootMem:面向个性化 LLM 的隐式逻辑记忆检索
Towards Root Memories: Benchmarking and Enhancing Implicit Logical Memory Retrieval for Personalized LLMs
🔗 https://arxiv.org/abs/2606.23283
💡 一句话:指出语义相似检索会漏掉“逻辑上关键但表面不相似”的记忆,并提出 root memory 来抽取可复用的用户决策逻辑。
🎯 关联:很高。InternOS 如果要做长期组织协调,不只是记 facts,而是要记“Anna/团队如何做判断”的 decision logic。
5. 管理 LLM Agent 的 Procedural Memory:控制、适应与评估
Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation
🔗 https://arxiv.org/abs/2606.23127
💡 一句话:用 AFTER benchmark 评估 agent 从企业任务中沉淀 reusable skills 的能力,区分本地改进、跨任务迁移、跨角色迁移、跨模型泛化。
🎯 关联:非常高。Anna 做 Agent 平台时,“skills 怎么沉淀、复用、迁移、失效”是核心系统问题,不是 prompt engineering 小技巧。
6. 自进化 LLM Agent 系统的安全:威胁、放大效应与案例研究
Safety in Self-Evolving LLM Agent Systems: Threats, Amplification, and Case Studies
🔗 https://arxiv.org/abs/2606.23075
💡 一句话:把 self-evolving agent 的攻击面拆成 Brain / Memory / Execution / Self-Design / Collective × 生命周期阶段,指出攻击会从 session-level 变成 lineage-persistent。
🎯 关联:高。只要 Agent 平台允许更新 memory、tool、skill、workflow,就已经进入这篇说的风险区;安全边界必须前置设计。
7. 面向资源感知 LLM Agent 的 Stackelberg 框架
A Stackelberg Framework for Resource-Aware LLM Agents: Learning, Repair, and Conditional Guarantees
🔗 https://arxiv.org/abs/2606.23026
💡 一句话:把 agent 的 context、prompt verbosity、tool usage 调度建模成 controller-executor 博弈,在保证质量基本不掉的情况下降低 token 成本。
🎯 关联:高。Anna 的 Agent 平台迟早要做 runtime resource governance:什么时候用长上下文、什么时候调用工具、什么时候省 token,这篇方向很对。
8. G2PO:用于长程 Agentic RL 的 Group-Graph Policy Optimization
Group-Graph Policy Optimization for Long-Horizon Agentic Reinforcement Learning
🔗 https://arxiv.org/abs/2606.22995
💡 一句话:把长程 agent 轨迹从线性序列改成状态转移图,用图上的 credit assignment 改善 WebShop / ALFWorld / AppWorld 这类长任务训练。
🎯 关联:中高。更偏训练算法,但对“长任务 agent 为什么失败、如何定位关键 transition”有启发,适合给 InternOS 的任务执行日志/回放系统做参考。