#扩散语言模型
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
PerceptionDLM:用扩散语言模型并行做区域感知,吞吐提速最高 3.44×
来自北大、ByteDance、武大、CASIA、NUS 的工作,首次用多模态扩散语言模型(DLM)实现并行区域描述:不同于自回归逐区域处理,它用结构化注意力掩码让多个掩码区域同时被描述。基于 SigLIP-2 + LLaDA-8B,提出 ParaDLC-Bench(2345 题、GPT-5.2 为评判)。多模态 16 项基准中 15 项超 LLaDA-V,ParaDLC-Bench 准确率 62.4%(LLaDA-V 35.2%),完全并行时吞吐最高提速 3.44×,单图延迟从 10.04s 降到 2.92s。提交于 6 月 17 日。
扩散语言模型一直被质疑『只快不准』,这篇用区域感知这个天然可并行的任务给出了反例:既显著超越扩散基线,又把自回归逐区域的延迟砍掉近 7 成。它的价值在于点明了 DLM 的差异化战场——凡是输出之间相互独立、可并行的结构化感知任务,DLM 的并行解码就有结构性优势。下一步看它能否从『感知』扩展到『生成与推理』,那才是对自回归的正面挑战。
Reflective Masking:用反思式掩码激发掩码扩散模型的推理能力
Reflective Masking(arXiv 2606.16700,14 upvotes,UMD/Virginia Tech 等)提出一种轻量后训练方法,让掩码扩散模型(MDM)按位置做 keep/re-mask/reveal 决策,迭代式局部修订自身输出,实现扩散模型独有的测试时扩展;配合参数无关的 History Reference 维持去噪轨迹状态。覆盖图像编辑、数独纠错与文本推理(数学/代码),约 2 张 H100 训练 5 小时。
这与同日的 PerceptionDLM 互为呼应,共同指向一个判断:2026 年中扩散语言模型正从『能生成』走向『会推理、会改错』。Reflective Masking 把『像人一样迭代局部纠错』变成 MDM 的原生能力,无需改架构、训练成本极低,是 DLM 阵营补齐推理短板的关键一步。值得关注它在代码(MBPP)上增益大于数学(MATH)的现象——说明这类局部修订更适合结构化、可验证的任务。
PerceptionDLM:扩散语言模型实现并行区域感知,最高 3.44x 提速
PerceptionDLM(arXiv 2606.19534,63 upvotes)首次用多模态扩散语言模型(DLM)实现并行区域描述与感知:借助区域感知掩码嵌入、RoI 特征重放与结构化注意力掩码,同时为多个掩码区域生成描述。基于 SigLIP-2 + LLaDA-8B,在 16 个基准中 15 个超过 LLaDA-V,自建 ParaDLC-Bench 达 62.4% 准确率,吞吐最高提速 3.44x,推理时间 276s(对照 GAR 479s)。
这是扩散语言模型(DLM)在多模态感知上对自回归路线的一次正面挑战:AR 逐区域处理的串行瓶颈,被 DLM 的并行解码天然化解。意义在于为『密集区域级理解』(检测、指代、密集描述)提供了一条不靠堆 token 数、而靠并行解码提效的新路径。作者也坦承复杂推理(MMMU/MathVista)仍落后 AR,并把 RL 列为后续——所以这是『效率先行、推理待补』的阶段性突破,不是全面超越。