{
  "generated_at": "2026-06-23T09:21:36.756049+00:00",
  "digests": [
    {
      "domain": "Agent & LLM",
      "domain_slug": "agent-llm",
      "job_id": "957795dd8d14",
      "date": "2026-06-23",
      "run_time": "2026-06-23 09:05:12",
      "timestamp": "2026-06-23T09:05:12",
      "source_file": "2026-06-23_09-05-12.md",
      "url": "domains/agent-llm/2026-06-23_09-05-12.html",
      "title": "每日论文速递 · Agent & LLM",
      "summary": "💡 一句话：系统性评估多智能体系统里的 system prompt 优化，回答“调 prompt 到底在哪些 agent workflow / communication / team size 下有用”。",
      "paper_count": 8,
      "links": [
        "https://arxiv.org/abs/2606.23664",
        "https://arxiv.org/abs/2606.23654",
        "https://arxiv.org/abs/2606.23525",
        "https://arxiv.org/abs/2606.23283",
        "https://arxiv.org/abs/2606.23127",
        "https://arxiv.org/abs/2606.23075",
        "https://arxiv.org/abs/2606.23026",
        "https://arxiv.org/abs/2606.22995"
      ],
      "arxiv_ids": [
        "2606.23664",
        "2606.23654",
        "2606.23525",
        "2606.23283",
        "2606.23127",
        "2606.23075",
        "2606.23026",
        "2606.22995"
      ],
      "content": "📄 **每日论文速递 · Agent & LLM**  \n日期：2026-06-23\n\n---\n\n1. **MAS-PromptBench：什么时候 Prompt Optimization 真能提升 Multi-Agent LLM Systems？**  \n   **MAS-PromptBench: When Does Prompt Optimization Improve Multi-Agent LLM Systems?**  \n   🔗 https://arxiv.org/abs/2606.23664  \n   💡 一句话：系统性评估多智能体系统里的 system prompt 优化，回答“调 prompt 到底在哪些 agent workflow / communication / team size 下有用”。  \n   🎯 关联：很高。Anna 做 Agent 平台时，不能只靠“感觉调 prompt”，这篇给的是 multi-agent prompt 优化的评测面和边界条件。\n\n---\n\n2. **EnterpriseClawBench：来自真实工作场景的企业 Agent Benchmark**  \n   **EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions**  \n   🔗 https://arxiv.org/abs/2606.23654  \n   💡 一句话：从真实企业工作流 session 中抽出 852 个可复现任务，强调评测 enterprise agent 不能只看单分数，还要看产物质量、成本、耗时、技能迁移。  \n   🎯 关联：非常高。InternOS 和 Agent 平台本质都是“企业协作/工作流 agent”，这篇的评测维度值得直接借鉴。\n\n---\n\n3. **SelfCompact：让语言模型 Agent 自己决定何时压缩上下文**  \n   **Self-Compacting Language Model Agents**  \n   🔗 https://arxiv.org/abs/2606.23525  \n   💡 一句话：不是固定 token 阈值做 summarization，而是给 agent 一个 compaction tool + rubric，让它在子任务完成或轨迹收敛时主动压缩上下文。  \n   🎯 关联：非常高。Anna 的 Agent memory / runtime 设计里，context compaction 不能是死规则；这篇给了一个很实用的 execution-time memory management 方案。\n\n---\n\n4. **RootMem：面向个性化 LLM 的隐式逻辑记忆检索**  \n   **Towards Root Memories: Benchmarking and Enhancing Implicit Logical Memory Retrieval for Personalized LLMs**  \n   🔗 https://arxiv.org/abs/2606.23283  \n   💡 一句话：指出语义相似检索会漏掉“逻辑上关键但表面不相似”的记忆，并提出 root memory 来抽取可复用的用户决策逻辑。  \n   🎯 关联：很高。InternOS 如果要做长期组织协调，不只是记 facts，而是要记“Anna/团队如何做判断”的 decision logic。\n\n---\n\n5. **管理 LLM Agent 的 Procedural Memory：控制、适应与评估**  \n   **Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation**  \n   🔗 https://arxiv.org/abs/2606.23127  \n   💡 一句话：用 AFTER benchmark 评估 agent 从企业任务中沉淀 reusable skills 的能力，区分本地改进、跨任务迁移、跨角色迁移、跨模型泛化。  \n   🎯 关联：非常高。Anna 做 Agent 平台时，“skills 怎么沉淀、复用、迁移、失效”是核心系统问题，不是 prompt engineering 小技巧。\n\n---\n\n6. **自进化 LLM Agent 系统的安全：威胁、放大效应与案例研究**  \n   **Safety in Self-Evolving LLM Agent Systems: Threats, Amplification, and Case Studies**  \n   🔗 https://arxiv.org/abs/2606.23075  \n   💡 一句话：把 self-evolving agent 的攻击面拆成 Brain / Memory / Execution / Self-Design / Collective × 生命周期阶段，指出攻击会从 session-level 变成 lineage-persistent。  \n   🎯 关联：高。只要 Agent 平台允许更新 memory、tool、skill、workflow，就已经进入这篇说的风险区；安全边界必须前置设计。\n\n---\n\n7. **面向资源感知 LLM Agent 的 Stackelberg 框架**  \n   **A Stackelberg Framework for Resource-Aware LLM Agents: Learning, Repair, and Conditional Guarantees**  \n   🔗 https://arxiv.org/abs/2606.23026  \n   💡 一句话：把 agent 的 context、prompt verbosity、tool usage 调度建模成 controller-executor 博弈，在保证质量基本不掉的情况下降低 token 成本。  \n   🎯 关联：高。Anna 的 Agent 平台迟早要做 runtime resource governance：什么时候用长上下文、什么时候调用工具、什么时候省 token，这篇方向很对。\n\n---\n\n8. **G2PO：用于长程 Agentic RL 的 Group-Graph Policy Optimization**  \n   **Group-Graph Policy Optimization for Long-Horizon Agentic Reinforcement Learning**  \n   🔗 https://arxiv.org/abs/2606.22995  \n   💡 一句话：把长程 agent 轨迹从线性序列改成状态转移图，用图上的 credit assignment 改善 WebShop / ALFWorld / AppWorld 这类长任务训练。  \n   🎯 关联：中高。更偏训练算法，但对“长任务 agent 为什么失败、如何定位关键 transition”有启发，适合给 InternOS 的任务执行日志/回放系统做参考。"
    },
    {
      "domain": "Embodied Agents & World Models",
      "domain_slug": "embodied-ai-world-models",
      "job_id": "ca50b46122f4",
      "date": "2026-06-23",
      "run_time": "2026-06-23 09:13:30",
      "timestamp": "2026-06-23T09:13:30",
      "source_file": "2026-06-23_09-13-30.md",
      "url": "domains/embodied-ai-world-models/2026-06-23_09-13-30.html",
      "title": "每日论文速递 · Embodied Agents & World Models",
      "summary": "💡 一句话：这篇直接把 LLM agent 的“状态理解 → 工具调用 → 反馈检查 → 重规划”闭环搬到真实机器人上，用 Embodied AgentOS + 3D spatial memory + skills 组织真实硬件执行。",
      "paper_count": 8,
      "links": [
        "https://arxiv.org/abs/2606.23565",
        "https://arxiv.org/abs/2606.22948",
        "https://arxiv.org/abs/2606.19930",
        "https://arxiv.org/abs/2606.19926",
        "https://arxiv.org/abs/2606.23296",
        "https://arxiv.org/abs/2606.23685",
        "https://arxiv.org/abs/2606.23617",
        "https://arxiv.org/abs/2606.03374"
      ],
      "arxiv_ids": [
        "2606.23565",
        "2606.22948",
        "2606.19930",
        "2606.19926",
        "2606.23296",
        "2606.23685",
        "2606.23617",
        "2606.03374"
      ],
      "content": "📄 **每日论文速递 · Embodied Agents & World Models**  \n日期：2026-06-23\n\n---\n\n1. **HoloAgent-0：带 3D 空间记忆的统一具身 Agent 框架**  \n   *HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory*  \n   🔗 https://arxiv.org/abs/2606.23565  \n   💡 一句话：这篇直接把 LLM agent 的“状态理解 → 工具调用 → 反馈检查 → 重规划”闭环搬到真实机器人上，用 Embodied AgentOS + 3D spatial memory + skills 组织真实硬件执行。  \n   🎯 关联：今天最值得看。它的 Embodied AgentOS 很像 InternOS 在物理世界里的版本：任务图、资源调度、执行监控、clarification/re-planning，都对 Anna 做 agent 平台和执行层很有参考价值。\n\n---\n\n2. **ENVS：面向长程 GUI Agent 的环境原生验证搜索**  \n   *ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents*  \n   🔗 https://arxiv.org/abs/2606.22948  \n   💡 一句话：它不是靠人工标注教 GUI agent，而是在真实 OSWorld VM 里分支探索、验证成功轨迹，再把 verified supervision 拿来训练。  \n   🎯 关联：非常贴 Anna 的 generator + verifier + environment feedback loop。这个方向比“堆更强 VLM”更重要：agent 系统真正的瓶颈是可验证执行数据怎么从环境里长出来。\n\n---\n\n3. **MobileForge：无标注适配移动 GUI Agent 的分层反馈策略优化**  \n   *MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization*  \n   🔗 https://arxiv.org/abs/2606.19930  \n   💡 一句话：用真实 mobile app 交互生成任务、执行 rollout、收集 trajectory/outcome/step feedback，再做 step-level GRPO，让 GUI agent 自己适配目标 app。  \n   🎯 关联：这篇对 AI sandbox / agent infra 很关键：它把“环境、任务生成、反馈、训练”做成闭环 substrate，而不是孤立 benchmark。Anna 如果设计 agent runtime，应该盯这种 data flywheel。\n\n---\n\n4. **MemGUI-Agent：带主动上下文管理的长程移动 GUI Agent**  \n   *MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management*  \n   🔗 https://arxiv.org/abs/2606.19926  \n   💡 一句话：把 context management 变成 agent 可执行的 action，而不是 ReAct 那种被动堆历史，解决长程 GUI 任务里的记忆爆炸和关键信息稀释。  \n   🎯 关联：这篇对 InternOS 的“组织协调系统”启发很直接：memory/context 不是日志，是执行态的一部分；系统要允许 agent 主动压缩、折叠、维护工作状态。\n\n---\n\n5. **IOI：解耦运动学和物理的交互式 World Model**  \n   *IOI: Decoupling Kinematics and Physics for Interactive World Models*  \n   🔗 https://arxiv.org/abs/2606.23296  \n   💡 一句话：它把确定性的 forward kinematics 和学习式物理视频生成拆开，让 world model 既能对齐动作控制，又能生成物理反馈，并可作为 policy evaluator。  \n   🎯 关联：这篇对 sandbox/hardware infra 很有价值。未来 agent sandbox 不能只是“跑代码”，还要有可交互、可验证、可回放的环境模型；IOI 是物理版 execution simulator 的好样子。\n\n---\n\n6. **LaST-HD：从大规模人手数据学习机器人操作的潜在物理推理**  \n   *LaST-HD: Learning Latent Physical Reasoning from Scalable Human Data for Robot Manipulation*  \n   🔗 https://arxiv.org/abs/2606.23685  \n   💡 一句话：它用 action-conditioned world model 把人手示教和机器人轨迹对齐到同一个 latent dynamics space，减少单纯模仿人体运动带来的 embodiment mismatch。  \n   🎯 关联：核心点不是 glove，而是“跨 embodiment 的 latent reasoning space”。这对 Anna 思考 agent 执行层很有启发：不同工具/机器人/环境之间，需要共享的是意图和动态模型，不是表面动作序列。\n\n---\n\n7. **RECALL：面向 VLA 的主动终身学习恢复经验收集**  \n   *RECALL: Recovery Experience Collection for Active Lifelong Learning in Vision-Language-Action Models*  \n   🔗 https://arxiv.org/abs/2606.23617  \n   💡 一句话：它让 VLA 在不确定或失败边界主动收集 recovery demonstrations，而不是等整段任务失败后再被动补数据。  \n   🎯 关联：这篇很适合映射到 agent 平台：失败不是 binary outcome，而是应该在执行中定位“哪个状态需要监督/恢复”。InternOS 里的执行监控、失败归因、经验沉淀都可以借这个思路。\n\n---\n\n8. **eMEM：面向具身 Agent 的混合时空记忆系统**  \n   *eMEM: A Hybrid Spatio-Temporal Memory System For Embodied Agents*  \n   🔗 https://arxiv.org/abs/2606.03374  \n   💡 一句话：它把 embodied memory 做成语义、空间、时间三种索引统一的图结构，并暴露成 agent 可调用的 recall tools。  \n   🎯 关联：这篇不是炫模型，是系统设计。Anna 做 agent memory / InternOS 状态管理时，可以重点看它的 multi-index memory：text RAG 不够，执行型 agent 需要 location-aware、time-aware、task-aware 的记忆。\n\n---\n\n**今日判断**\n\n今天的趋势很清楚：agent 研究正在从“模型会不会推理”转向“系统怎么在环境里执行、验证、恢复、积累经验”。GUI agent 和 embodied robot 两条线开始收敛：都在做 verified search、active feedback、structured memory、world model simulator。  \n我的判断：未来真正有壁垒的不是单个 VLA/MLLM policy，而是 **环境反馈闭环 + 可验证轨迹生成 + 执行态记忆 + recovery data flywheel**。这正好打在 Anna 做 InternOS 和 AI sandbox/hardware infra 的交叉点上。"
    }
  ]
}