Topic Timeline

#推理

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

行业动态 2026-06-26 · 周五

OpenAI 公布自研推理芯片 Jalapeño,联合 Broadcom 量产

OpenAI 公布首款自研 AI 芯片 Jalapeño,由其从零设计、联合 Broadcom 量产,专为驱动 ChatGPT/Codex/API 及未来 agentic 产品的 LLM 推理负载打造,把全栈平台从产品、模型进一步延伸到基础设施。

自研推理芯片是 OpenAI 对 NVIDIA 依赖与推理成本的双重对冲:GPT-5.6 既要上 Cerebras 冲 750 tok/s,又靠自研硅压成本,说明"谁掌握推理经济性谁掌握定价权"已成共识。结合 Terra"比 5.5 便宜一半"的定价,OpenAI 正用垂直整合把成本曲线握进自己手里。短期内 Broadcom 代工、产能爬坡与软件栈成熟度仍是变数,首代自研芯片能承接多少真实流量需观察。

研究论文 2026-06-23 · 周二重要度 4/5 深度报告 →

Confident Decoding:别只信最后一层,Qwen 团队用「熵谷」选层,训练免改还涨分

Qwen 团队联合清华、NTU 挑战『最后一层表征最优』的假设,提出『Guess–Refine–Perturb』动态:早层粗猜、中层精化语义、末层可能把预测推向通用的对齐偏好 token(即『对齐税』)。Confident Decoding 是训练免改的即插即用解码策略,保留完整前向,用熵作为置信信号在『熵谷』动态选择喂给采样器的层。实测 FLOPs 增加不到 1%、零额外 KV 显存;Qwen3.5-27B 在 LiveCodeBench v6 上 +10.1%,GPQA-D +6.5%,gpt-oss-20b 在 Omni-MATH 最难档 +22.4 分。

这篇的杀伤力在于『几乎零成本』:不用重训、不加显存、延迟增加不到 2%,却能在硬核推理任务上拿到两位数百分点提升。它把『对齐税』具象化为末层把预测拉向安全/通用 token 的现象,并用最优停止理论给出选层的 minimax 最优性。需谨慎的是收益高度任务相关——代码/数学等高难推理增益明显,普通指令任务平均只 +2.8%,且需更多模型族验证普适性。

研究论文 2026-06-22 · 周一重要度 3/5

Reflective Masking:用反思式掩码激发掩码扩散模型的推理能力

Reflective Masking(arXiv 2606.16700,14 upvotes,UMD/Virginia Tech 等)提出一种轻量后训练方法,让掩码扩散模型(MDM)按位置做 keep/re-mask/reveal 决策,迭代式局部修订自身输出,实现扩散模型独有的测试时扩展;配合参数无关的 History Reference 维持去噪轨迹状态。覆盖图像编辑、数独纠错与文本推理(数学/代码),约 2 张 H100 训练 5 小时。

这与同日的 PerceptionDLM 互为呼应,共同指向一个判断:2026 年中扩散语言模型正从『能生成』走向『会推理、会改错』。Reflective Masking 把『像人一样迭代局部纠错』变成 MDM 的原生能力,无需改架构、训练成本极低,是 DLM 阵营补齐推理短板的关键一步。值得关注它在代码(MBPP)上增益大于数学(MATH)的现象——说明这类局部修订更适合结构化、可验证的任务。