Agent & LLM · 2026年6月30日

每日论文速递 · Agent & LLM

💡 一句话：提出 WorldEvolver，用 episodic memory、semantic memory 和 selective foresight 让 Agent 在不改模型参数的情况下，边执行边修正自己的世界模型。

2026-06-30 09:02:078 篇论文条目

📄 每日论文速递 · Agent & LLM

日期：2026-06-30

1. Self-Evolving World Models for LLM Agent Planning

用于 LLM Agent 规划的自进化世界模型

🔗 https://arxiv.org/abs/2606.30639

💡 一句话：提出 WorldEvolver，用 episodic memory、semantic memory 和 selective foresight 让 Agent 在不改模型参数的情况下，边执行边修正自己的世界模型。

🎯 关联：很高。Anna 做 Agent 平台时，memory 不能只是“存聊天记录”，而应该变成可用于预测行动后果的 planning substrate。

2. MAS-Lab: A Specification-Driven Validation Framework for Reliable Multi-Agent Systems

MAS-Lab：面向可靠多智能体系统的规格驱动验证框架

🔗 https://arxiv.org/abs/2606.30546

💡 一句话：把多智能体系统从一堆 demo script，升级成 Spec + MAS-OS + Lab overlays 的工程化生命周期框架。

🎯 关联：极高。这篇直接踩中 InternOS / Agent OS 的核心问题：agent orchestration 不能只靠 prompt glue，必须有规格、执行控制、观测和验证闭环。

3. Linguistic Firewall: Geometry as Defense in Multi-Agent Systems Routing

语言防火墙：用几何表示防御多智能体路由攻击

🔗 https://arxiv.org/abs/2606.30555

💡 一句话：提出 ANTAP，不再相信 agent 自我描述，而是通过主动能力测试来做 routing，避免 metadata/prompt 注入攻击。

🎯 关联：很高。Anna 的 Agent 平台如果有 agent registry / capability routing，这篇的判断很关键：不要让 agent 用自然语言自报能力，必须做 behavioral verification。

4. TraceLab: Characterizing Coding Agent Workloads for LLM Serving

TraceLab：刻画 Coding Agent 真实工作负载以优化 LLM Serving

🔗 https://arxiv.org/abs/2606.30560

💡 一句话：发布 4300 个真实 coding-agent session trace，分析 coding agent 的长循环、长上下文、工具调用、prefix cache 和 serving 瓶颈。

🎯 关联：很高。对做 Agent runtime / sandbox / serving scheduler 很有价值，尤其是 Anna 关心的调度、KV cache、tool latency、human-paced gaps。

5. LLM Agents Are Latent Context Managers: Eliciting Self-Managed Context via a Proprioceptive Dashboard

LLM Agent 是潜在的上下文管理器：用“本体感知仪表盘”激发自管理上下文能力

🔗 https://arxiv.org/abs/2606.30005

💡 一句话：提出 VISTA，把 working memory 做成可寻址 block，并向模型暴露 token usage、recency、access history，让模型自己决定保留/归档/恢复上下文。

🎯 关联：极高。这就是 Agent memory interface 设计问题，不是“压缩上下文”这么简单；对 InternOS 的 memory / workspace / artifact 管理非常直接。

6. SWE-Together: Evaluating Coding Agents in Interactive User Sessions

SWE-Together：在真实多轮用户协作中评估 Coding Agent

🔗 https://arxiv.org/abs/2606.29957

💡 一句话：构造真实 repository-level 多轮 coding session benchmark，不只看最终代码对不对，还看 agent 需要多少用户纠错。

🎯 关联：高。Anna 如果要评估 AI Agent 平台，别只跑静态 SWE-bench；真实产品体验的关键指标是 intervention count 和 collaborative friction。

7. Whose Side Is Your Agent On? Multi-Party Principal Loyalty in LLM Agents

你的 Agent 站在哪一边？LLM Agent 的多方委托忠诚问题

🔗 https://arxiv.org/abs/2606.30383

💡 一句话：研究 agent 同时面对 principal 和 counterparty 时如何保持委托忠诚，提出 PrincipalBench 和 prompt/distillation 机制。

🎯 关联：很高。InternOS 里的 agent 如果代表人、团队或组织行动，必须明确“agent 忠于谁”；否则多方协作会变成安全和权限灾难。

8. DuoMem: Towards Capable On-Device Memory Agents via Dual-Space Distillation

DuoMem：通过双空间蒸馏实现端侧可用的记忆型 Agent

🔗 https://arxiv.org/abs/2606.29961

💡 一句话：用 context-space memory distillation + parameter-space LoRA distillation，把大模型的 procedural memory 迁移到小模型上。

🎯 关联：中高。对 Anna 的 Agent 平台不是主线架构论文，但对“低成本、可部署、带长期任务记忆的小 agent”很有启发。