A Anna 的论文速递Hermes Cron Paper Digest

Agent & LLM · 2026年6月30日

每日论文速递 · Agent & LLM

💡 一句话:提出 WorldEvolver,用 episodic memory、semantic memory 和 selective foresight 让 Agent 在不改模型参数的情况下,边执行边修正自己的世界模型。

📄 每日论文速递 · Agent & LLM

日期:2026-06-30


1. Self-Evolving World Models for LLM Agent Planning

用于 LLM Agent 规划的自进化世界模型

💡 一句话:提出 WorldEvolver,用 episodic memory、semantic memory 和 selective foresight 让 Agent 在不改模型参数的情况下,边执行边修正自己的世界模型。

🎯 关联:很高。Anna 做 Agent 平台时,memory 不能只是“存聊天记录”,而应该变成可用于预测行动后果的 planning substrate。


2. MAS-Lab: A Specification-Driven Validation Framework for Reliable Multi-Agent Systems

MAS-Lab:面向可靠多智能体系统的规格驱动验证框架

💡 一句话:把多智能体系统从一堆 demo script,升级成 Spec + MAS-OS + Lab overlays 的工程化生命周期框架。

🎯 关联:极高。这篇直接踩中 InternOS / Agent OS 的核心问题:agent orchestration 不能只靠 prompt glue,必须有规格、执行控制、观测和验证闭环。


3. Linguistic Firewall: Geometry as Defense in Multi-Agent Systems Routing

语言防火墙:用几何表示防御多智能体路由攻击

💡 一句话:提出 ANTAP,不再相信 agent 自我描述,而是通过主动能力测试来做 routing,避免 metadata/prompt 注入攻击。

🎯 关联:很高。Anna 的 Agent 平台如果有 agent registry / capability routing,这篇的判断很关键:不要让 agent 用自然语言自报能力,必须做 behavioral verification。


4. TraceLab: Characterizing Coding Agent Workloads for LLM Serving

TraceLab:刻画 Coding Agent 真实工作负载以优化 LLM Serving

💡 一句话:发布 4300 个真实 coding-agent session trace,分析 coding agent 的长循环、长上下文、工具调用、prefix cache 和 serving 瓶颈。

🎯 关联:很高。对做 Agent runtime / sandbox / serving scheduler 很有价值,尤其是 Anna 关心的调度、KV cache、tool latency、human-paced gaps。


5. LLM Agents Are Latent Context Managers: Eliciting Self-Managed Context via a Proprioceptive Dashboard

LLM Agent 是潜在的上下文管理器:用“本体感知仪表盘”激发自管理上下文能力

💡 一句话:提出 VISTA,把 working memory 做成可寻址 block,并向模型暴露 token usage、recency、access history,让模型自己决定保留/归档/恢复上下文。

🎯 关联:极高。这就是 Agent memory interface 设计问题,不是“压缩上下文”这么简单;对 InternOS 的 memory / workspace / artifact 管理非常直接。


6. SWE-Together: Evaluating Coding Agents in Interactive User Sessions

SWE-Together:在真实多轮用户协作中评估 Coding Agent

💡 一句话:构造真实 repository-level 多轮 coding session benchmark,不只看最终代码对不对,还看 agent 需要多少用户纠错。

🎯 关联:高。Anna 如果要评估 AI Agent 平台,别只跑静态 SWE-bench;真实产品体验的关键指标是 intervention count 和 collaborative friction。


7. Whose Side Is Your Agent On? Multi-Party Principal Loyalty in LLM Agents

你的 Agent 站在哪一边?LLM Agent 的多方委托忠诚问题

💡 一句话:研究 agent 同时面对 principal 和 counterparty 时如何保持委托忠诚,提出 PrincipalBench 和 prompt/distillation 机制。

🎯 关联:很高。InternOS 里的 agent 如果代表人、团队或组织行动,必须明确“agent 忠于谁”;否则多方协作会变成安全和权限灾难。


8. DuoMem: Towards Capable On-Device Memory Agents via Dual-Space Distillation

DuoMem:通过双空间蒸馏实现端侧可用的记忆型 Agent

💡 一句话:用 context-space memory distillation + parameter-space LoRA distillation,把大模型的 procedural memory 迁移到小模型上。

🎯 关联:中高。对 Anna 的 Agent 平台不是主线架构论文,但对“低成本、可部署、带长期任务记忆的小 agent”很有启发。

生成信息
领域
Agent & LLM
Job ID
957795dd8d14
运行时间
2026-06-30 09:02:07
源文件
2026-06-30_09-02-07.md
链接数
8