Topic Timeline

#并行解码

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

研究论文 2026-06-23 · 周二 重要度 4/5 深度报告 →

PerceptionDLM:用扩散语言模型并行做区域感知,吞吐提速最高 3.44×

来自北大、ByteDance、武大、CASIA、NUS 的工作,首次用多模态扩散语言模型(DLM)实现并行区域描述:不同于自回归逐区域处理,它用结构化注意力掩码让多个掩码区域同时被描述。基于 SigLIP-2 + LLaDA-8B,提出 ParaDLC-Bench(2345 题、GPT-5.2 为评判)。多模态 16 项基准中 15 项超 LLaDA-V,ParaDLC-Bench 准确率 62.4%(LLaDA-V 35.2%),完全并行时吞吐最高提速 3.44×,单图延迟从 10.04s 降到 2.92s。提交于 6 月 17 日。

扩散语言模型一直被质疑『只快不准』,这篇用区域感知这个天然可并行的任务给出了反例:既显著超越扩散基线,又把自回归逐区域的延迟砍掉近 7 成。它的价值在于点明了 DLM 的差异化战场——凡是输出之间相互独立、可并行的结构化感知任务,DLM 的并行解码就有结构性优势。下一步看它能否从『感知』扩展到『生成与推理』,那才是对自回归的正面挑战。