Confident Decoding:别只信最后一层,Qwen 用「熵谷」选层,训练免改还涨分

几乎所有大模型都默认一件事:把最后一层(final layer)的隐状态投影成词表分布,从那里采样下一个 token。Qwen 团队联合清华大学、南洋理工(NTU)的这篇论文 《Deeper is Not Always Better》(arXiv:2606.21906,2026 年 6 月 20 日提交)直接质疑这个默认值:他们发现模型内部存在一个反复出现的 「先猜—精化—扰动」(Guess–Refine–Perturb) 动态——浅层先粗猜,中层把推理相关的语义精化到位,而末层有可能把这份已经想清楚的预测,又推向更通用、更符合对齐偏好的 token。这个「往回拉」的过程,他们称之为 对齐税(alignment tax)。

他们给出的解法叫 Confident Decoding:一个训练免改(training-free)、即插即用的解码策略,完整前向不动、KV 缓存不动,只改「把哪一层的 logits 喂给采样器」。方法用熵(entropy)作为逐 token 的置信信号,从最后一层向前做保守回溯搜索,停在一个局部熵最低点——作者称之为 「熵谷」(Entropy Valley)。代价极小:FLOPs 实测平均只增加约 0.87%、额外 KV 显存为 0 MB、端到端单 token 延迟 <2%。收益却随难度放大:gpt-oss-20b 在 Omni-MATH 最难档(Level 4)从 1.1 涨到 23.5,绝对 +22.4 分。

发生了什么

论文的出发点是一个被长期当作常识、却很少被审视的假设:「越深的层,表征越好,所以应该从最后一层解码」。作者通过对模型逐层隐状态的分析,把这条「常识」拆成了三个阶段:

Phase I(先猜,浅层):输入输出方向余弦相似度(IO-CosSim)≈ 0.67,表征还在大幅重写,模型在「粗猜」。
Phase II(精化,中层):IO-CosSim 升到 0.91–0.97,表征趋于稳定,推理相关语义被逐步雕琢到位——这是真正「想清楚」的区间。
Phase III(扰动,末层):到第 40 层时 IO-CosSim 又回落到约 0.69,范数比(Norm Ratio)相对 Phase II 抬升到 2–3 倍——表征再次被显著改写。

关键判断在第三阶段:这层「再改写」并非总是把答案改得更对。作者用熵的变化量化了这件事——在 GPQA-Diamond 上统计 20 万+ 个 token,发现 16.2% 的 token 在末层熵不降反升(ΔH = +0.37 nats),也就是预测分布反而变「糊」了;其余 83.8% 的 token 末层熵继续下降(ΔH = −2.52 nats),符合「越深越确定」的直觉。那 16.2% 被「推糊」的 token,正是对齐税的落点:模型在中层已经收敛到一个专业、犀利的答案,末层却把它往「通用、安全、对齐偏好」的方向拉。

Confident Decoding 的做法,是把「该从第几层读答案」建模成一个最优停止(optimal stopping)问题:从最后一层向前扫描(回看窗口 K=10),找到第一个局部熵谷就停下,用那一层的分布出 token。作者还给了一个理论结果(Theorem 1):在「投影噪声有界、末层扰动占主导」的假设下,这个保守回溯能保证选中的层落在 [V_onset, V*] 区间内——既过滤掉末层的对齐扰动,又把相对「理想精化层」的语义损失限制在可控范围。换句话说,它不是激进地从中层早退(early-exit),而是只在末层确实「帮倒忙」时,才退回一两层。

值得强调的是触发频率很低:论文称只有约 11.5% 的 token 会触发回溯扫描,其中约 21.4%(即全局约 2.47%)真正改变了 argmax 选择;88.5% 的 token 在最后一层本就满足单调收敛条件,根本不需要干预。这解释了为什么开销能压到 1% 以内——绝大多数时候它什么都不做。

关键数据 / 技术细节

论文在稠密模型与 MoE 模型上都做了测试,覆盖 Qwen3.5(27B、35B-A3B、122B-A10B)、gpt-oss(20B、120B)、Gemma-4-31B。下表为各模型从「末层解码 → Confident Decoding」的绝对分数变化(节选自论文 Table 1):

模型	GPQA-D	LCB-v6	Omni-MATH	HLE	Air-Bench(安全)	WritingBench
Qwen3.5-27B	78.2→79.4(+1.2)	63.9→73.3(+9.4)	76.0→76.2(+0.2)	16.0→16.8(+0.8)	65.7→64.7(−1.0)	66.7→66.4(−0.3)
Qwen3.5-35B-A3B	76.3→82.8(+6.5)	70.1→74.4(+4.3)	72.3→73.0(+0.7)	9.2→11.2(+2.0)	51.7→55.4(+3.7)	65.2→65.3(+0.1)
Qwen3.5-122B-A10B	83.3→85.4(+2.1)	76.8→79.2(+2.4)	78.3→78.5(+0.2)	14.7→16.5(+1.8)	66.0→67.0(+1.0)	72.6→72.7(+0.1)
Gemma-4-31B	76.8→80.8(+4.0)	75.1→78.3(+3.2)	68.3→69.0(+0.7)	9.2→11.0(+1.8)	74.0→76.0(+2.0)	64.2→64.4(+0.2)
gpt-oss-20b	58.1→60.8(+2.7)	77.1→77.6(+0.5)	61.3→61.0(−0.3)	6.2→6.3(+0.1)	86.7→91.7(+5.0)	54.3→54.6(+0.3)
gpt-oss-120B	76.3→80.8(+4.5)	83.1→84.5(+1.4)	70.2→71.0(+0.8)	10.8→12.6(+1.8)	88.0→90.0(+2.0)	67.5→67.8(+0.3)

几个要点:

难题越难,收益越大。整体平均增益不算惊人,但在难档上极为显著:gpt-oss-20b 在 Omni-MATH 最难档(Level 4)从 1.1 涨到 23.5(+22.4 分),Qwen3.5-35B-A3B 同档从 0.3 涨到 7.5(+7.2)。作者据此提出,这套方法对复杂推理更像是「关键护盾」,而不是无差别的普涨。
安全能力没被牺牲。Air-Bench(安全基准)上 gpt-oss-20b +5.0、Gemma-4-31B +2.0——说明跳过的只是「对推理帮倒忙」的那部分扰动,安全护栏(guardrail)被保留。作者对此的解释是:在安全/对话任务里,对齐与正确逻辑基本一致(护栏);只有在复杂推理里,对齐才变成「税」,把预测从专业逻辑上拽开。
写作类基本持平。WritingBench 变化都在 ±0.5 内,说明对开放式生成几乎无副作用,主要在「有标准答案的硬推理」上见效。

成本侧(以 Qwen3.5-35B-A3B、L=40、词表 |V|=151,936、K=10 估算):

项目	FLOPs	相对完整前向
完整前向一次	5,212M	100%
单次词表投影(W_U)	389M	+7.46%
最坏情况扫描(K=10)	3,890M	+74.64%
实测均值(0.116 次投影/token)	45M	+0.87%
额外 KV 缓存	—	0 MB / +0.00%

也就是说,理论最坏情况会贵不少,但因为绝大多数 token 不触发回溯,实测开销被摊薄到 1% 以内,且不占任何额外显存。

数字口径提醒:本话题摘要里流传的「Qwen3.5-27B 在 LiveCodeBench v6 +10.1%」「GPQA-D +6.5%」,与论文表格存在两处需澄清的对照——Table 1 中 Qwen3.5-27B 的 LCB-v6 为 +9.4(正文另有 +10.1% 的表述,疑为不同口径/统计方式),而 +6.5 的 GPQA-D 对应的是 Qwen3.5-35B-A3B,而非 27B。本文以论文表格为准,并标出差异。

为何重要

这篇论文的价值,不在某个单点 benchmark,而在它重新定义了「从模型里读答案」这件事。

第一,它把「对齐税」具象化、可定位了。「对齐让模型变笨」是社区里流传已久的模糊感受,但很少有人能指出它发生在哪、占多大比例。这篇论文用「末层熵不降反升的 16.2% token」给了它一个可测量的坐标,并提供了一个不需要重训、不需要改权重就能绕开它的办法。对「既要安全对齐、又要保住推理上限」这个长期矛盾,它给出了一条「推理时再处理」的新路径。

第二,几乎零成本、零侵入,落地门槛极低。不动训练、不动前向、不占显存、延迟 <2%,意味着它理论上可以叠加在任何已有的开源/对齐模型上,作为一个解码阶段的「旋钮」。这和需要重新做对齐、或需要额外训练一个 verifier 的方案相比,工程代价天差地别。

第三,它给「early-exit / 层选择」这条老赛道换了个框架。过去的早退方法多是为了省算力(浅层够用就别算了),代表性的对比对象是 DoLa 这类「对比不同层」的解码;而 Confident Decoding 反过来——不为省钱,而为涨分,且明确是「保守回溯、只退一点点」,并用最优停止理论给了选层的可证明保证。这把「选哪一层」从工程 trick 抬到了一个有理论支撑的决策问题。

早报观点

我们的判断:这是一篇「small idea, big framing」的论文——动作很轻(就是换一层读 logits),但它戳中的命题很重(对齐到底在多大程度上拖累了推理)。如果结论稳健,它最大的意义是把「对齐 vs 能力」的取舍从训练期部分挪到了推理期:你不必在「安全」和「聪明」之间二选一地去调权重,而可以在出 token 的瞬间,只在该聪明的地方退回半步。

但有几处必须保留 caveat。其一,数字口径要小心。论文正文与表格之间已经出现「+10.1% vs +9.4」「+6.5 到底是哪个模型」这类对不齐的地方(见上文提醒),社区在二次传播时很容易张冠李戴。在没有第三方独立复现前,我们建议把这些增益当作「作者自报、口径待统一」来看,而不是定论。

其二,整体平均增益其实温和,真正惊人的是难档。+22.4 这种数字很抓眼球,但它来自一个基线只有 1.1 分的极难档——基数极低时绝对增量天然容易放大,而 WritingBench、部分 Omni-MATH 甚至出现小幅负向(−0.3)。所以更克制的读法是:它是给硬推理用的护盾,不是普适的免费午餐;在简单任务、开放式生成上,别指望它白送性能。

其三,「末层=对齐税」这个因果叙事很有冲击力,但也最容易被过度解读。论文用熵升高来指认「扰动」,可熵升高不必然等于「被对齐拉偏」——也可能是模型在该 token 处本就该犹豫。把「末层改写」一律归因于 RLHF 式对齐,需要更多消融(比如对未对齐 base 模型做同样分析)来排除其它解释。论文确实报告了 Instruct 与 Base 的差异(对齐模型增益更大),这是支持性证据,但还谈不上铁证。

最后一点提醒读者:这是历史回溯补档,本话题目前可检索的一手材料,集中在论文自身的发布渠道(HuggingFace Daily Papers + arXiv 摘要/HTML),尚未见到独立的第三方复现或权威媒体深度评测。结论的可信度,应随后续社区复现而动态调整——我们把置信度标为 medium,正是这个原因。

接下来看什么

独立复现:是否有第三方(非作者团队)在 vLLM/SGLang 等推理框架里复现「熵谷选层」,并对齐出 +9.4 / +6.5 这类数字;尤其是 LiveCodeBench 上 +9.4 与 +10.1 的口径能否统一。
与 DoLa / 其它对比解码的正面 PK:Confident Decoding 相对已有的「层间对比解码」在同一套 benchmark 上孰优孰劣,以及能否叠加。
是否被 Qwen 自家产品线吸收:作为 Qwen 团队出品,这套解码会不会进入后续 Qwen 模型的官方推理默认配置或开源推理栈。
「对齐税」叙事的进一步证据:对未对齐 base 模型、不同对齐强度模型做同样的逐层熵分析,看「末层扰动」是否真与对齐强度正相关——这是该论文因果主张成立与否的关键。
超参敏感性:回看窗口 K、温度、触发阈值对增益的影响有多大,会不会在不同任务上需要重新调参,从而削弱「即插即用」的卖点。