Topic Timeline

#RL 训练

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

研究论文 2026-07-03 · 周五重要度 3/5

arXiv 2607.01232:只训练单层 Transformer 即可匹敌全参数 RL 训练,若可复现将冲击推理模型对齐成本结构

arXiv 2607.01232《Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Training》提出一个反直觉发现:在特定 RL 训练设置下,只训练 Transformer 的单层(其他层冻结)即可达到全参数 RL 微调的水平。如果可复现,这意味着 RL 微调的资源门槛可能远低于当下认知——对推理模型对齐、Agent RLHF 训练成本结构都会产生直接冲击。论文尚未公开训练细节与完整超参,需等作者公开与社区复现。

如果「单层 Transformer RL 训练 = 全参数微调」这一结论可复现,RLHF / RLAIF / Agent RL 等对齐训练的成本结构会被根本性改变——RL 微调可能不再需要全参数梯度更新,只需冻结大部分参数后微调单层,显存与计算成本可压缩一个数量级以上。这对推理模型厂商(Anthropic、OpenAI、Google)的对齐 R&D 投入产出比是直接冲击——他们当前重资投入的全参数 RL 微调可能存在大量冗余。同时,这一发现如果成立,意味着「可解释性研究」获得新工具——单层微调可以作为因果干预手段,精确定位 RL 对齐到底发生在 Transformer 的哪一层。这与 arXiv 2607.01233(同日)对 AI for Science 评测形成同一天「AI 训练效率 + 评测锚点」的双重冷思考信号。