Agent & LLM · 2026年6月23日

每日论文速递 · Agent & LLM

💡 一句话：系统性评估多智能体系统里的 system prompt 优化，回答“调 prompt 到底在哪些 agent workflow / communication / team size 下有用”。

2026-06-23 09:05:128 篇论文条目

📄 每日论文速递 · Agent & LLM

日期：2026-06-23

1. MAS-PromptBench：什么时候 Prompt Optimization 真能提升 Multi-Agent LLM Systems？

MAS-PromptBench: When Does Prompt Optimization Improve Multi-Agent LLM Systems?

💡 一句话：系统性评估多智能体系统里的 system prompt 优化，回答“调 prompt 到底在哪些 agent workflow / communication / team size 下有用”。

🎯 关联：很高。Anna 做 Agent 平台时，不能只靠“感觉调 prompt”，这篇给的是 multi-agent prompt 优化的评测面和边界条件。

2. EnterpriseClawBench：来自真实工作场景的企业 Agent Benchmark

EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions

💡 一句话：从真实企业工作流 session 中抽出 852 个可复现任务，强调评测 enterprise agent 不能只看单分数，还要看产物质量、成本、耗时、技能迁移。

🎯 关联：非常高。InternOS 和 Agent 平台本质都是“企业协作/工作流 agent”，这篇的评测维度值得直接借鉴。

3. SelfCompact：让语言模型 Agent 自己决定何时压缩上下文

Self-Compacting Language Model Agents

🔗 https://arxiv.org/abs/2606.23525

💡 一句话：不是固定 token 阈值做 summarization，而是给 agent 一个 compaction tool + rubric，让它在子任务完成或轨迹收敛时主动压缩上下文。

🎯 关联：非常高。Anna 的 Agent memory / runtime 设计里，context compaction 不能是死规则；这篇给了一个很实用的 execution-time memory management 方案。

4. RootMem：面向个性化 LLM 的隐式逻辑记忆检索

Towards Root Memories: Benchmarking and Enhancing Implicit Logical Memory Retrieval for Personalized LLMs

💡 一句话：指出语义相似检索会漏掉“逻辑上关键但表面不相似”的记忆，并提出 root memory 来抽取可复用的用户决策逻辑。

🎯 关联：很高。InternOS 如果要做长期组织协调，不只是记 facts，而是要记“Anna/团队如何做判断”的 decision logic。

5. 管理 LLM Agent 的 Procedural Memory：控制、适应与评估

Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation

💡 一句话：用 AFTER benchmark 评估 agent 从企业任务中沉淀 reusable skills 的能力，区分本地改进、跨任务迁移、跨角色迁移、跨模型泛化。

🎯 关联：非常高。Anna 做 Agent 平台时，“skills 怎么沉淀、复用、迁移、失效”是核心系统问题，不是 prompt engineering 小技巧。

6. 自进化 LLM Agent 系统的安全：威胁、放大效应与案例研究

Safety in Self-Evolving LLM Agent Systems: Threats, Amplification, and Case Studies

💡 一句话：把 self-evolving agent 的攻击面拆成 Brain / Memory / Execution / Self-Design / Collective × 生命周期阶段，指出攻击会从 session-level 变成 lineage-persistent。

🎯 关联：高。只要 Agent 平台允许更新 memory、tool、skill、workflow，就已经进入这篇说的风险区；安全边界必须前置设计。

7. 面向资源感知 LLM Agent 的 Stackelberg 框架

A Stackelberg Framework for Resource-Aware LLM Agents: Learning, Repair, and Conditional Guarantees

💡 一句话：把 agent 的 context、prompt verbosity、tool usage 调度建模成 controller-executor 博弈，在保证质量基本不掉的情况下降低 token 成本。

🎯 关联：高。Anna 的 Agent 平台迟早要做 runtime resource governance：什么时候用长上下文、什么时候调用工具、什么时候省 token，这篇方向很对。

8. G2PO：用于长程 Agentic RL 的 Group-Graph Policy Optimization

Group-Graph Policy Optimization for Long-Horizon Agentic Reinforcement Learning

💡 一句话：把长程 agent 轨迹从线性序列改成状态转移图，用图上的 credit assignment 改善 WebShop / ALFWorld / AppWorld 这类长任务训练。

🎯 关联：中高。更偏训练算法，但对“长任务 agent 为什么失败、如何定位关键 transition”有启发，适合给 InternOS 的任务执行日志/回放系统做参考。