A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月23日

每日论文速递 · Agent & LLM

💡 一句话:系统性评估多智能体系统里的 system prompt 优化,回答“调 prompt 到底在哪些 agent workflow / communication / team size 下有用”。

📄 每日论文速递 · Agent & LLM

日期:2026-06-23


1. MAS-PromptBench:什么时候 Prompt Optimization 真能提升 Multi-Agent LLM Systems?

MAS-PromptBench: When Does Prompt Optimization Improve Multi-Agent LLM Systems?

💡 一句话:系统性评估多智能体系统里的 system prompt 优化,回答“调 prompt 到底在哪些 agent workflow / communication / team size 下有用”。

🎯 关联:很高。Anna 做 Agent 平台时,不能只靠“感觉调 prompt”,这篇给的是 multi-agent prompt 优化的评测面和边界条件。


2. EnterpriseClawBench:来自真实工作场景的企业 Agent Benchmark

EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions

💡 一句话:从真实企业工作流 session 中抽出 852 个可复现任务,强调评测 enterprise agent 不能只看单分数,还要看产物质量、成本、耗时、技能迁移。

🎯 关联:非常高。InternOS 和 Agent 平台本质都是“企业协作/工作流 agent”,这篇的评测维度值得直接借鉴。


3. SelfCompact:让语言模型 Agent 自己决定何时压缩上下文

Self-Compacting Language Model Agents

💡 一句话:不是固定 token 阈值做 summarization,而是给 agent 一个 compaction tool + rubric,让它在子任务完成或轨迹收敛时主动压缩上下文。

🎯 关联:非常高。Anna 的 Agent memory / runtime 设计里,context compaction 不能是死规则;这篇给了一个很实用的 execution-time memory management 方案。


4. RootMem:面向个性化 LLM 的隐式逻辑记忆检索

Towards Root Memories: Benchmarking and Enhancing Implicit Logical Memory Retrieval for Personalized LLMs

💡 一句话:指出语义相似检索会漏掉“逻辑上关键但表面不相似”的记忆,并提出 root memory 来抽取可复用的用户决策逻辑。

🎯 关联:很高。InternOS 如果要做长期组织协调,不只是记 facts,而是要记“Anna/团队如何做判断”的 decision logic。


5. 管理 LLM Agent 的 Procedural Memory:控制、适应与评估

Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation

💡 一句话:用 AFTER benchmark 评估 agent 从企业任务中沉淀 reusable skills 的能力,区分本地改进、跨任务迁移、跨角色迁移、跨模型泛化。

🎯 关联:非常高。Anna 做 Agent 平台时,“skills 怎么沉淀、复用、迁移、失效”是核心系统问题,不是 prompt engineering 小技巧。


6. 自进化 LLM Agent 系统的安全:威胁、放大效应与案例研究

Safety in Self-Evolving LLM Agent Systems: Threats, Amplification, and Case Studies

💡 一句话:把 self-evolving agent 的攻击面拆成 Brain / Memory / Execution / Self-Design / Collective × 生命周期阶段,指出攻击会从 session-level 变成 lineage-persistent。

🎯 关联:高。只要 Agent 平台允许更新 memory、tool、skill、workflow,就已经进入这篇说的风险区;安全边界必须前置设计。


7. 面向资源感知 LLM Agent 的 Stackelberg 框架

A Stackelberg Framework for Resource-Aware LLM Agents: Learning, Repair, and Conditional Guarantees

💡 一句话:把 agent 的 context、prompt verbosity、tool usage 调度建模成 controller-executor 博弈,在保证质量基本不掉的情况下降低 token 成本。

🎯 关联:高。Anna 的 Agent 平台迟早要做 runtime resource governance:什么时候用长上下文、什么时候调用工具、什么时候省 token,这篇方向很对。


8. G2PO:用于长程 Agentic RL 的 Group-Graph Policy Optimization

Group-Graph Policy Optimization for Long-Horizon Agentic Reinforcement Learning

💡 一句话:把长程 agent 轨迹从线性序列改成状态转移图,用图上的 credit assignment 改善 WebShop / ALFWorld / AppWorld 这类长任务训练。

🎯 关联:中高。更偏训练算法,但对“长任务 agent 为什么失败、如何定位关键 transition”有启发,适合给 InternOS 的任务执行日志/回放系统做参考。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-23 09:05:12
源文件
2026-06-23_09-05-12.md
链接数
8