#推理效率
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
Grouped Query Experts:在注意力里做 MoE,KV cache 不变、只稀疏化查询头
GQE 把 GQA 分组内的查询头当作专家,由路由器为每个 token 选 top-k 个查询头专家,而 KV 头保持稠密、始终计算,从而保留 GQA 的 KV cache 优势,只削减激活的查询头算力。250M 参数 / 30B token 预算下,每 token 仅激活一半查询头,下游准确率仍与全激活 GQA 基线持平。
这是一条很『务实』的效率路线:不动 KV cache(推理显存的大头),只在注意力的查询侧做稀疏化,等于把 MoE 思路搬进 attention 而不破坏长上下文的内存画像。但要诚实看待——这是『匹配而非提升』(激活减半、精度持平),且只验证到 250M/30B token 的小规模、小专家池,能否放大到主流尺寸仍是最大未知数。它的意义更多在于指出一个被忽略的优化面:不是每个 token 都需要全部注意力头,token 难度差异本身就是可利用的稀疏性来源。
Grouped Query Experts:在注意力里做 MoE,KV cache 不变、预填充提速近 1.8×
GQE 把 GQA 分组内的查询头当作专家,由路由器为每个 token 选 top-k 个查询头专家,而 KV 头保持稠密、始终计算,从而保留 GQA 的 KV cache 优势,只削减激活的查询头算力。250M 参数 / 30B token 预算下,完整 GQE 三任务平均 56.04,略高于稠密 GQA 基线 55.86;预填充在 4k–1024k token 区间提速约 1.67–1.80×。
这是一条很『务实』的效率路线:不动 KV cache(推理显存的大头),只在注意力的查询侧做稀疏化,等于把 MoE 的思路搬进 attention 而不破坏长上下文的内存画像。但要诚实看待局限——作者自己强调这是『匹配而非提升』(+0.18 在误差范围内),且只验证到 250M/30B token 的小规模,小专家池,需多种子和更大规模复现才能下结论。
PerceptionDLM:扩散语言模型实现并行区域感知,最高 3.44x 提速
PerceptionDLM(arXiv 2606.19534,63 upvotes)首次用多模态扩散语言模型(DLM)实现并行区域描述与感知:借助区域感知掩码嵌入、RoI 特征重放与结构化注意力掩码,同时为多个掩码区域生成描述。基于 SigLIP-2 + LLaDA-8B,在 16 个基准中 15 个超过 LLaDA-V,自建 ParaDLC-Bench 达 62.4% 准确率,吞吐最高提速 3.44x,推理时间 276s(对照 GAR 479s)。
这是扩散语言模型(DLM)在多模态感知上对自回归路线的一次正面挑战:AR 逐区域处理的串行瓶颈,被 DLM 的并行解码天然化解。意义在于为『密集区域级理解』(检测、指代、密集描述)提供了一条不靠堆 token 数、而靠并行解码提效的新路径。作者也坦承复杂推理(MMMU/MathVista)仍落后 AR,并把 RL 列为后续——所以这是『效率先行、推理待补』的阶段性突破,不是全面超越。