几乎所有大模型都默认一件事:把最后一层(final layer)的隐状态投影成词表分布,从那里采样下一个 token。Qwen 团队联合清华大学、南洋理工(NTU)的这篇论文 《Deeper is Not Always Better》(arXiv:2606.21906,2026 年 6 月 20 日提交)直接质疑这个默认值:他们发现模型内部存在一个反复出现的 「先猜—精化—扰动」(Guess–Refine–Perturb) 动态——浅层先粗猜,中层把推理相关的语义精化到位,而末层有可能把这份已经想清楚的预测,又推向更通用、更符合对齐偏好的 token。这个「往回拉」的过程,他们称之为 对齐税(alignment tax)。
他们给出的解法叫 Confident Decoding:一个训练免改(training-free)、即插即用的解码策略,完整前向不动、KV 缓存不动,只改「把哪一层的 logits 喂给采样器」。方法用熵(entropy)作为逐 token 的置信信号,从最后一层向前做保守回溯搜索,停在一个局部熵最低点——作者称之为 「熵谷」(Entropy Valley)。代价极小:FLOPs 实测平均只增加约 0.87%、额外 KV 显存为 0 MB、端到端单 token 延迟 <2%。收益却随难度放大:gpt-oss-20b 在 Omni-MATH 最难档(Level 4)从 1.1 涨到 23.5,绝对 +22.4 分。
发生了什么
论文的出发点是一个被长期当作常识、却很少被审视的假设:「越深的层,表征越好,所以应该从最后一层解码」。作者通过对模型逐层隐状态的分析,把这条「常识」拆成了三个阶段:
- Phase I(先猜,浅层):输入输出方向余弦相似度(IO-CosSim)≈ 0.67,表征还在大幅重写,模型在「粗猜」。
- Phase II(精化,中层):IO-CosSim 升到 0.91–0.97,表征趋于稳定,推理相关语义被逐步雕琢到位——这是真正「想清楚」的区间。
- Phase III(扰动,末层):到第 40 层时 IO-CosSim 又回落到约 0.69,范数比(Norm Ratio)相对 Phase II 抬升到 2–3 倍——表征再次被显著改写。
关键判断在第三阶段:这层「再改写」并非总是把答案改得更对。作者用熵的变化量化了这件事——在 GPQA-Diamond 上统计 20 万+ 个 token,发现 16.2% 的 token 在末层熵不降反升(ΔH = +0.37 nats),也就是预测分布反而变「糊」了;其余 83.8% 的 token 末层熵继续下降(ΔH = −2.52 nats),符合「越深越确定」的直觉。那 16.2% 被「推糊」的 token,正是对齐税的落点:模型在中层已经收敛到一个专业、犀利的答案,末层却把它往「通用、安全、对齐偏好」的方向拉。
Confident Decoding 的做法,是把「该从第几层读答案」建模成一个最优停止(optimal stopping)问题:从最后一层向前扫描(回看窗口 K=10),找到第一个局部熵谷就停下,用那一层的分布出 token。作者还给了一个理论结果(Theorem 1):在「投影噪声有界、末层扰动占主导」的假设下,这个保守回溯能保证选中的层落在 [V_onset, V*] 区间内——既过滤掉末层的对齐扰动,又把相对「理想精化层」的语义损失限制在可控范围。换句话说,它不是激进地从中层早退(early-exit),而是只在末层确实「帮倒忙」时,才退回一两层。
值得强调的是触发频率很低:论文称只有约 11.5% 的 token 会触发回溯扫描,其中约 21.4%(即全局约 2.47%)真正改变了 argmax 选择;88.5% 的 token 在最后一层本就满足单调收敛条件,根本不需要干预。这解释了为什么开销能压到 1% 以内——绝大多数时候它什么都不做。
关键数据 / 技术细节
论文在稠密模型与 MoE 模型上都做了测试,覆盖 Qwen3.5(27B、35B-A3B、122B-A10B)、gpt-oss(20B、120B)、Gemma-4-31B。下表为各模型从「末层解码 → Confident Decoding」的绝对分数变化(节选自论文 Table 1):
| 模型 | GPQA-D | LCB-v6 | Omni-MATH | HLE | Air-Bench(安全) | WritingBench |
|---|---|---|---|---|---|---|
| Qwen3.5-27B | 78.2→79.4(+1.2) | 63.9→73.3(+9.4) | 76.0→76.2(+0.2) | 16.0→16.8(+0.8) | 65.7→64.7(−1.0) | 66.7→66.4(−0.3) |
| Qwen3.5-35B-A3B | 76.3→82.8(+6.5) | 70.1→74.4(+4.3) | 72.3→73.0(+0.7) | 9.2→11.2(+2.0) | 51.7→55.4(+3.7) | 65.2→65.3(+0.1) |
| Qwen3.5-122B-A10B | 83.3→85.4(+2.1) | 76.8→79.2(+2.4) | 78.3→78.5(+0.2) | 14.7→16.5(+1.8) | 66.0→67.0(+1.0) | 72.6→72.7(+0.1) |
| Gemma-4-31B | 76.8→80.8(+4.0) | 75.1→78.3(+3.2) | 68.3→69.0(+0.7) | 9.2→11.0(+1.8) | 74.0→76.0(+2.0) | 64.2→64.4(+0.2) |
| gpt-oss-20b | 58.1→60.8(+2.7) | 77.1→77.6(+0.5) | 61.3→61.0(−0.3) | 6.2→6.3(+0.1) | 86.7→91.7(+5.0) | 54.3→54.6(+0.3) |
| gpt-oss-120B | 76.3→80.8(+4.5) | 83.1→84.5(+1.4) | 70.2→71.0(+0.8) | 10.8→12.6(+1.8) | 88.0→90.0(+2.0) | 67.5→67.8(+0.3) |
几个要点:
- 难题越难,收益越大。整体平均增益不算惊人,但在难档上极为显著:gpt-oss-20b 在 Omni-MATH 最难档(Level 4)从 1.1 涨到 23.5(+22.4 分),Qwen3.5-35B-A3B 同档从 0.3 涨到 7.5(+7.2)。作者据此提出,这套方法对复杂推理更像是「关键护盾」,而不是无差别的普涨。
- 安全能力没被牺牲。Air-Bench(安全基准)上 gpt-oss-20b +5.0、Gemma-4-31B +2.0——说明跳过的只是「对推理帮倒忙」的那部分扰动,安全护栏(guardrail)被保留。作者对此的解释是:在安全/对话任务里,对齐与正确逻辑基本一致(护栏);只有在复杂推理里,对齐才变成「税」,把预测从专业逻辑上拽开。
- 写作类基本持平。WritingBench 变化都在 ±0.5 内,说明对开放式生成几乎无副作用,主要在「有标准答案的硬推理」上见效。
成本侧(以 Qwen3.5-35B-A3B、L=40、词表 |V|=151,936、K=10 估算):
| 项目 | FLOPs | 相对完整前向 |
|---|---|---|
| 完整前向一次 | 5,212M | 100% |
| 单次词表投影(W_U) | 389M | +7.46% |
| 最坏情况扫描(K=10) | 3,890M | +74.64% |
| 实测均值(0.116 次投影/token) | 45M | +0.87% |
| 额外 KV 缓存 | — | 0 MB / +0.00% |
也就是说,理论最坏情况会贵不少,但因为绝大多数 token 不触发回溯,实测开销被摊薄到 1% 以内,且不占任何额外显存。
数字口径提醒:本话题摘要里流传的「Qwen3.5-27B 在 LiveCodeBench v6 +10.1%」「GPQA-D +6.5%」,与论文表格存在两处需澄清的对照——Table 1 中 Qwen3.5-27B 的 LCB-v6 为 +9.4(正文另有 +10.1% 的表述,疑为不同口径/统计方式),而 +6.5 的 GPQA-D 对应的是 Qwen3.5-35B-A3B,而非 27B。本文以论文表格为准,并标出差异。
为何重要
这篇论文的价值,不在某个单点 benchmark,而在它重新定义了「从模型里读答案」这件事。
第一,它把「对齐税」具象化、可定位了。「对齐让模型变笨」是社区里流传已久的模糊感受,但很少有人能指出它发生在哪、占多大比例。这篇论文用「末层熵不降反升的 16.2% token」给了它一个可测量的坐标,并提供了一个不需要重训、不需要改权重就能绕开它的办法。对「既要安全对齐、又要保住推理上限」这个长期矛盾,它给出了一条「推理时再处理」的新路径。
第二,几乎零成本、零侵入,落地门槛极低。不动训练、不动前向、不占显存、延迟 <2%,意味着它理论上可以叠加在任何已有的开源/对齐模型上,作为一个解码阶段的「旋钮」。这和需要重新做对齐、或需要额外训练一个 verifier 的方案相比,工程代价天差地别。
第三,它给「early-exit / 层选择」这条老赛道换了个框架。过去的早退方法多是为了省算力(浅层够用就别算了),代表性的对比对象是 DoLa 这类「对比不同层」的解码;而 Confident Decoding 反过来——不为省钱,而为涨分,且明确是「保守回溯、只退一点点」,并用最优停止理论给了选层的可证明保证。这把「选哪一层」从工程 trick 抬到了一个有理论支撑的决策问题。
我们的判断:这是一篇「small idea, big framing」的论文——动作很轻(就是换一层读 logits),但它戳中的命题很重(对齐到底在多大程度上拖累了推理)。如果结论稳健,它最大的意义是把「对齐 vs 能力」的取舍从训练期部分挪到了推理期:你不必在「安全」和「聪明」之间二选一地去调权重,而可以在出 token 的瞬间,只在该聪明的地方退回半步。
但有几处必须保留 caveat。其一,数字口径要小心。论文正文与表格之间已经出现「+10.1% vs +9.4」「+6.5 到底是哪个模型」这类对不齐的地方(见上文提醒),社区在二次传播时很容易张冠李戴。在没有第三方独立复现前,我们建议把这些增益当作「作者自报、口径待统一」来看,而不是定论。
其二,整体平均增益其实温和,真正惊人的是难档。+22.4 这种数字很抓眼球,但它来自一个基线只有 1.1 分的极难档——基数极低时绝对增量天然容易放大,而 WritingBench、部分 Omni-MATH 甚至出现小幅负向(−0.3)。所以更克制的读法是:它是给硬推理用的护盾,不是普适的免费午餐;在简单任务、开放式生成上,别指望它白送性能。
其三,「末层=对齐税」这个因果叙事很有冲击力,但也最容易被过度解读。论文用熵升高来指认「扰动」,可熵升高不必然等于「被对齐拉偏」——也可能是模型在该 token 处本就该犹豫。把「末层改写」一律归因于 RLHF 式对齐,需要更多消融(比如对未对齐 base 模型做同样分析)来排除其它解释。论文确实报告了 Instruct 与 Base 的差异(对齐模型增益更大),这是支持性证据,但还谈不上铁证。
最后一点提醒读者:这是历史回溯补档,本话题目前可检索的一手材料,集中在论文自身的发布渠道(HuggingFace Daily Papers + arXiv 摘要/HTML),尚未见到独立的第三方复现或权威媒体深度评测。结论的可信度,应随后续社区复现而动态调整——我们把置信度标为 medium,正是这个原因。
接下来看什么
- 独立复现:是否有第三方(非作者团队)在 vLLM/SGLang 等推理框架里复现「熵谷选层」,并对齐出 +9.4 / +6.5 这类数字;尤其是 LiveCodeBench 上 +9.4 与 +10.1 的口径能否统一。
- 与 DoLa / 其它对比解码的正面 PK:Confident Decoding 相对已有的「层间对比解码」在同一套 benchmark 上孰优孰劣,以及能否叠加。
- 是否被 Qwen 自家产品线吸收:作为 Qwen 团队出品,这套解码会不会进入后续 Qwen 模型的官方推理默认配置或开源推理栈。
- 「对齐税」叙事的进一步证据:对未对齐 base 模型、不同对齐强度模型做同样的逐层熵分析,看「末层扰动」是否真与对齐强度正相关——这是该论文因果主张成立与否的关键。
- 超参敏感性:回看窗口 K、温度、触发阈值对增益的影响有多大,会不会在不同任务上需要重新调参,从而削弱「即插即用」的卖点。