#架构
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
Grouped Query Experts:在注意力里做 MoE,KV cache 不变、只稀疏化查询头
GQE 把 GQA 分组内的查询头当作专家,由路由器为每个 token 选 top-k 个查询头专家,而 KV 头保持稠密、始终计算,从而保留 GQA 的 KV cache 优势,只削减激活的查询头算力。250M 参数 / 30B token 预算下,每 token 仅激活一半查询头,下游准确率仍与全激活 GQA 基线持平。
这是一条很『务实』的效率路线:不动 KV cache(推理显存的大头),只在注意力的查询侧做稀疏化,等于把 MoE 思路搬进 attention 而不破坏长上下文的内存画像。但要诚实看待——这是『匹配而非提升』(激活减半、精度持平),且只验证到 250M/30B token 的小规模、小专家池,能否放大到主流尺寸仍是最大未知数。它的意义更多在于指出一个被忽略的优化面:不是每个 token 都需要全部注意力头,token 难度差异本身就是可利用的稀疏性来源。
Grouped Query Experts:在注意力里做 MoE,KV cache 不变、预填充提速近 1.8×
GQE 把 GQA 分组内的查询头当作专家,由路由器为每个 token 选 top-k 个查询头专家,而 KV 头保持稠密、始终计算,从而保留 GQA 的 KV cache 优势,只削减激活的查询头算力。250M 参数 / 30B token 预算下,完整 GQE 三任务平均 56.04,略高于稠密 GQA 基线 55.86;预填充在 4k–1024k token 区间提速约 1.67–1.80×。
这是一条很『务实』的效率路线:不动 KV cache(推理显存的大头),只在注意力的查询侧做稀疏化,等于把 MoE 的思路搬进 attention 而不破坏长上下文的内存画像。但要诚实看待局限——作者自己强调这是『匹配而非提升』(+0.18 在误差范围内),且只验证到 250M/30B token 的小规模,小专家池,需多种子和更大规模复现才能下结论。