今日候选池91篇硬过滤 LLM 打分后通过评估17篇精选 Top-10另列 7 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1. Self-Evolving Multi-Agent Systems via Decentralized Memory评分8.3·方向cs.MA · Multiagent Systems ·arxiv2605.22721· PDF 提出DecentMem去中心化双池记忆让各agent在线重加权利用池与探索池轨迹多智能体记忆系统LLM agent摘要针对自进化多智能体系统普遍依赖集中式记忆、带来通信开销、隐私风险与同质化的问题本文提出去中心化记忆框架 DecentMem。每个 agent 独立维护 exploitation/exploration 双池记忆并依据 LLM-as-a-judge 的分阶段反馈在线重加权。理论上可保证全局可达并达到 O(log T) regret在多种 MAS、Qwen/Gemma 骨干和五类任务上准确率最高提升 23.8%token 用量最多降 49%。评分细项rel 9.0 / nov 7.8 / prac 8.2 / author 6.02. Self-Policy Distillation via Capability-Selective Subspace Projection评分8.2·方向cs.CL · Computation and Language ·arxiv2605.22675· PDF 提出 SPD从正确性 token 梯度提取低秩能力子空间并投影 KV 激活生成自蒸馏数据再做 NTP 微调。后训练自蒸馏KV投影摘要现有自蒸馏要么依赖 correctness filtering、执行反馈等外部信号成本高且不适用于前沿模型要么直接用原始自生成数据易混入风格和格式噪声。本文提出 Self-Policy Distillation (SPD)从定义正确性的 token 梯度中提取低秩 capability 子空间在自生成时将 KV activations 投影到该子空间再用标准 next-token loss 微调。SPD 在代码、数学和选择题上相对无外部信号基线最高提升 13%较预训练模型最高提升 16%泛化更强。评分细项rel 8.8 / nov 8.0 / prac 7.5 / author 6.03. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems评分8.4·方向cs.AI · Artificial Intelligence ·arxiv2605.22794· PDF MOSS 依据生产故障证据执行 source-level rewriting经 coding-agent CLI 修改 agent harness 代码。Agent系统自演化代码重写摘要多数自进化 agent 只能修改 prompt、技能文件或工作流无法触及路由、状态不变量和调度等代码层结构缺陷。MOSS 提出面向生产级 agent substrate 的源码级自重写从真实失败样本自动整理证据经多阶段确定性流水线生成候选修改利用外部 coding-agent CLI 改代码并通过回放验证、健康探针回滚和用户授权完成上线。结果表明源码级适应能显著修复长期重复故障较文本层演化更通用、稳定。评分细项rel 9.0 / nov 8.5 / prac 8.0 / author 5.54. Memory-R2: Fair Credit Assignment for Long-Horizon Memory-Augmented LLM Agents评分8.1·方向cs.MA · Multiagent Systems ·arxiv2605.21768· PDF 提出 Memory-R2/LoGo-GRPO对记忆增强 LLM agent 结合 local 与 global rerollout 做长程信用分配。后训练RL记忆增强agent长程信用分配摘要带记忆的 LLM agent 可跨会话工作但在多轮 RL 训练中不同 rollout 会写入不同记忆导致中间状态不一致像 GRPO 这类组相对比较因此失真。本文提出 Memory-R2其核心 LoGo-GRPO 结合全局与局部 group-relative optimization既保留长程轨迹奖励又在相同中间记忆状态下重采样比较不同记忆操作实现更公平的 credit assignment。同时以共享参数联合学习事实提取与记忆管理提升长期记忆构建与演化。评分细项rel 8.8 / nov 8.0 / prac 7.5 / author 5.05. Sibyl-AutoResearch: Autonomous Research Needs Self-Evolving Trial-and-Error Harnesses, Not Paper Generators评分7.7·方向cs.MA · Multiagent Systems ·arxiv2605.22343· PDF SIBYL以Scientific Harness记录试验成败并回写到规划、验证、写作与系统修复多智能体自主科研agent workflow摘要作者认为自动科研系统的关键不在“论文生成”而在能否把试错经验转化为后续行为。Sibyl-AutoResearch 围绕 Scientific Trial-and-Error Harness 构建agent 可执行受限试验保留正负结果并把经验反馈到规划、验证、论断范围、写作与流程修复中。论文提出 trial-to-behavior 与 trial-to-harness-behavior 两类可审计转换单元并在文件驱动系统 SIBYL 中实现回顾性审计发现多次高置信经验转化常见流程失误也能被持续修复。评分细项rel 8.1 / nov 7.4 / prac 7.8 / author 6.06. Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2605.22642· PDF 构建 Spreadsheet Gym 与 paired start-goal 数据管线用多轮 RL 微调 Excel 代理处理真实表格工作流。RL后训练Spreadsheet AgentExcel摘要现有 spreadsheet agent 多靠通用 LLM 的提示工程难以处理真实 Excel 中复杂的多步操作。本文提出 Spreadsheet-RL在逼真的 Microsoft Excel 环境中用强化学习训练专用 agent。其贡献包括从在线论坛自动收集起始-目标表格对构建 Domain-Spreadsheet 基准设计支持多轮 RL 的 Spreadsheet Gym通过 Python sandbox 暴露丰富 Excel 工具及路由规则。实验表明该框架能显著提升通用与行业 spreadsheet 任务表现。评分细项rel 7.8 / nov 7.0 / prac 8.5 / author 6.07. The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems评分7.2·方向cs.MA · Multiagent Systems ·arxiv2605.21997· PDF 提出 ActiveGraph 事件溯源式运行时用 append-only log 实现 agent 的确定性回放、分叉与因果追踪。agentic workflow事件溯源可回放摘要多数 agent 框架以对话循环为核心日志只是事后附加。本文提出 ActiveGraph反转这一设计append-only event log 才是唯一事实源工作图是其确定性投影各类函数、类或 LLM 例程仅对图变化做反应并写回新事件。该架构带来三点优势可从日志确定性重放任意运行、可在任意事件低成本 fork 分支、并可追溯从高层目标到单次模型调用的完整 lineage为可审计、可分叉和自改进 agent 提供更稳固底座。评分细项rel 7.5 / nov 7.0 / prac 8.0 / author 5.08. Agentic CLEAR: Automating Multi-Level Evaluation of LLM Agents评分7.1·方向cs.CL · Computation and Language ·arxiv2605.22608· PDF 提出 Agentic CLEAR在 system/trace/node 三层自动归因代理错误并据此预测 task success rate。Agent评测工作流摘要随着 agent 更自主地制定策略、执行动作并与环境交互单靠观测或静态错误 taxonomy 已难以评估其行为。Agentic CLEAR 提出自动、动态且易用的多层评估框架可在 system、trace、node 三个粒度生成文本化洞察并构建在 observability 层之上便于集成且配有直观 UI。作者在四个 benchmark、七类 agent 设置和数万次 LLM 调用上验证其反馈与人工错误标注高度一致并能有效预测任务成功率。评分细项rel 7.0 / nov 6.5 / prac 8.0 / author 7.09. Tokenization with Split Trees评分7.0·方向cs.CL · Computation and Language ·arxiv2605.22705· PDF 提出 ToaST 分词用 Split Trees 递归推断并以整数规划选词表将 token 数较 BPE 降低超 11%。分词上下文压缩长上下文摘要ToaST 提出基于 split tree 的子词分词方法直接在新的递归推理规则下优化压缩率先用字节 n-gram 统计将 pretoken 贪心切成二叉树再通过 IP/LP 近似求解最小总 token 数词表。英语实验中在 40,960 以上词表规模下较 BPE、WordPiece、UnigramLM 减少 11% 以上 token并提升 Renyi efficiency训练 1.5B 模型时 CORE 最优22 个任务中 13 个第一。评分细项rel 7.2 / nov 7.4 / prac 7.2 / author 5.010. HarnessAPI: A Skill-First Framework for Unified Streaming APIs and MCP Tools评分7.3·方向cs.AI · Artificial Intelligence ·arxiv2605.22733· PDF 以 typed skill folder 为单一真源自动生成 SSE HTTP、OpenAPI 与 FastMCP 工具注册。Agentic WorkflowMCP工程框架摘要HarnessAPI 面向 LLM 工具开发解决同一 Python 函数需同时维护 HTTP 接口与 MCP 工具的重复工作。它以 typed skill folder 为单一真源从 handler.py 与 Pydantic schema 自动生成支持 SSE 的流式 API、OpenAPI/Swagger UI 和零配置 MCP 工具同一 handler 可同时服务流式与 JSON 客户端。六类技能实验显示相比手写 FastAPIFastMCP样板代码减少 74%。评分细项rel 7.8 / nov 6.2 / prac 8.7 / author 5.0 速览 · 其他通过评估的工作7 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.AI7.1Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention· 在线性注意力中分离 channel-wise erase/write gate并配合 chunkwise WY 更新稳定压缩记忆。cs.CV7.0WorldKV: Efficient World Memory with World Retrieval and Compression· WorldKV 用 World Retrieval 回插历史 KV 块并以 key-key similarity 压缩冗余 token 维持世界记忆。cs.CL6.8Beyond Temperature: Hyperfitting as a Late-Stage Geometric Expansion· 把 Hyperfitting 归因于末层 Terminal Expansion并用 Late-Stage LoRA 仅更新最后几层。cs.CV6.5Swift Sampling: Selecting Temporal Surprises via Taylor Series· 把视频特征建模为潜空间轨迹用泰勒展开估计后续路径偏差选择 temporal surprise 帧用于长视频问答采样。cs.CV6.3SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers· SEGA 按去噪步与潜变量频谱自适应缩放 RoPE 注意力提升 DiT 超训练分辨率生成。cs.AI6.0Advancing Mathematics Research with AI-Driven Formal Proof Search· 交替执行 LLM 生成与 Lean 验证的 proof-search agent在 Erdős 与 OEIS 开放题上产出形式化证明。cs.AI6.0Towards Direct Evaluation of Harness Optimizers via Priority Ranking· 提出 priority ranking让 harness optimizer 对工具等组件按潜在更新收益排序替代昂贵 rollout 直接评估步骤级能力。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考