Topic Timeline

#解码

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

研究论文 2026-06-23 · 周二 重要度 4/5 深度报告 →

Confident Decoding:别只信最后一层,Qwen 团队用「熵谷」选层,训练免改还涨分

Qwen 团队联合清华、NTU 挑战『最后一层表征最优』的假设,提出『Guess–Refine–Perturb』动态:早层粗猜、中层精化语义、末层可能把预测推向通用的对齐偏好 token(即『对齐税』)。Confident Decoding 是训练免改的即插即用解码策略,保留完整前向,用熵作为置信信号在『熵谷』动态选择喂给采样器的层。实测 FLOPs 增加不到 1%、零额外 KV 显存;Qwen3.5-27B 在 LiveCodeBench v6 上 +10.1%,GPQA-D +6.5%,gpt-oss-20b 在 Omni-MATH 最难档 +22.4 分。

这篇的杀伤力在于『几乎零成本』:不用重训、不加显存、延迟增加不到 2%,却能在硬核推理任务上拿到两位数百分点提升。它把『对齐税』具象化为末层把预测拉向安全/通用 token 的现象,并用最优停止理论给出选层的 minimax 最优性。需谨慎的是收益高度任务相关——代码/数学等高难推理增益明显,普通指令任务平均只 +2.8%,且需更多模型族验证普适性。