Topic Timeline

#效率

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

研究论文 2026-06-24 · 周三重要度 2/5

KaLM-Reranker-V1:解耦 query 与 passage 计算的「快但非延迟交互」重排器

多数重排器把 query 与 passage 联合编码,计算紧耦合、部署不灵活。KaLM-Reranker-V1 提出『Fast but Not Late-interaction(FBNL)』:基于 encoder-decoder,用 encoder 配 Matryoshka 池化预先编码 passage,decoder 建模指令与查询意图,再用 cross-attention 捕捉相关性。提供 Nano/Small/Large 三档(0.27B/1B/4B 激活参数),在 BEIR 上达 SOTA、与 Qwen3-Reranker 系列持平,同时效率更优。

重排器一直在两难之间:联合编码(cross-encoder)精度高但每次都要 query×passage 重算、无法预计算;延迟交互(late interaction，如 ColBERT)能预存 passage 但相关性建模较弱。KaLM 这条 FBNL 路线想两头通吃——passage 侧可预编码缓存(像 late interaction),相关性又靠 cross-attention 保留表达力(像 cross-encoder)。对要把重排塞进大规模在线检索的工程团队,这种『passage 离线编码 + query 在线轻量交互』的解耦正是降本的关键。Matryoshka 池化还给了一个用精度换延迟的旋钮。需要看的是 cross-attention 这层是否成为新的在线瓶颈,以及多语言(MIRACL)上未充分训练时的表现。