PerceptionDLM:用扩散语言模型并行做区域感知,吞吐最高提速 3.44×

一篇来自北京大学、ByteDance、武汉大学、CASIA、新加坡国立大学(NUS)的工作,把”扩散语言模型(diffusion language model, DLM)能并行解码”这个理论上的优势,第一次落到了密集区域感知这个具体任务上。论文 PerceptionDLM 于 6 月 17 日提交,核心主张直白:今天主流的多模态大模型(MLLM)大多是自回归(autoregressive, AR)架构,描述一张图上的多个区域时只能逐个区域、逐个 token 顺序生成,延迟随区域数线性增长;而扩散语言模型可以在一次前向里并行地把多个掩码区域同时填出来。作者称这是”首个利用扩散语言模型优势实现并行区域描述与感知”的方法。

成绩单上有两个数字最值得记:在自建的 ParaDLC-Bench(2345 道人工校验题、用 GPT-5.2 当评判)上,PerceptionDLM 平均准确率 62.4%,而同为扩散路线的 LLaDA-V 只有 35.2%;在保持工作量恒定(每图 4 个掩码)的设定下,完全并行带来最高 3.44× 的吞吐提速,单图延迟从 10.04 秒压到 2.92 秒。模型本身是 80 亿参数(8B),视觉编码器用 SigLIP-2,扩散主干用 LLaDA-8B-Instruct,代码、模型、数据集与 benchmark 全部开源(Apache-2.0)。

说明:本文为历史回溯,信源以 HuggingFace 当日论文页、arXiv 摘要页、官方 GitHub 仓库(含完整 benchmark 表)及项目主页为主,均为一手公开材料,彼此数字一致;此为单一研究团队的自报结果,尚无独立第三方复现。

发生了什么

区域感知(region perception / localized captioning)是多模态模型的一项基础能力:给一张图和若干个区域掩码(mask),让模型分别描述每个区域里是什么、有什么属性。它支撑着指代理解、细粒度标注、视觉问答里的”指哪说哪”等一大批下游任务。

问题在于”多个区域”这个量词。自回归模型生成是严格串行的——要描述 N 个区域,实践中往往要跑 N 次(或把 N 段拼成一条长序列逐 token 解码),时间几乎随区域数线性上涨。区域一多,延迟就爆炸。这正是论文开篇点的痛:“大多数 MLLM 依赖自回归生成,这限制了它们在感知任务上的效率。”

PerceptionDLM 的解法是换底座:用扩散语言模型替代自回归解码。扩散语言模型的生成范式不是”从左到右逐个吐字”,而是从一片被掩盖(masked)的 token 出发,通过若干步”去噪(denoising)“同时把它们恢复出来——天然具备并行性。作者在此之上做了两件关键工程:一是高效提示(efficient prompting),把”哪几个区域要描述”组织成模型能并行消化的输入;二是结构化注意力掩码(structured attention masking),让不同区域对应的待填 token 在注意力层面被恰当隔开,从而多个区域可以在同一次去噪里互不串扰地被同时描述。

落到流程上:给定一张图和多个区域掩码,模型在一次去噪过程里把所有区域的描述同时填出来,而不是一个区域跑一遍。这就是它声称的”并行区域感知”。

为了量这件事,作者把已有的 DLC-Bench 扩展成 ParaDLC-Bench:同一张图带多个区域掩码(原版偏单区域),共 2345 道人工校验题,源图取自 Objects365 V2 与 DaTaSeg;评判模型从原版的 Llama-3.1-8B 升级为 GPT-5.2,以更可靠地判分。模型训练用到自建的 ParaCaption-5.7M 语料,从 SA-1B 与 COCONut 两个分割数据集构造而来;整套训练在 32 张 NVIDIA H100(80GB) 上分阶段进行,基座(PerceptionDLM-Base)约 3 周,在并行语料上继续训出 PerceptionDLM 约再用 2 天。

关键数据 / 技术细节

并行区域感知主榜(ParaDLC-Bench)的对比最能说明问题。这里同时看三件事:质量(平均准确率)、并行度(TPF,Tokens Per Forward,每次前向产出的 token 数,越高越并行)、整榜耗时(越低越快):

方法	架构	平均准确率	TPF(并行度)↑	整榜耗时(s)↓
GAR-8B	自回归(串行)	69.5%	1.0	479
DAM-3B	自回归	69.2%	1.0	—
PixelRefer-7B	自回归	60.5%	1.0	718
LLaDA-V-8B	扩散	35.2%	1.0	3241
SDAR-VL	扩散	31.3%	—	—
PerceptionDLM-8B	扩散(并行)	62.4%	2.9	276

(数据来源:HuggingFace 论文页、arXiv 摘要、官方 GitHub 仓库 README,三方一致。)

几个读数:

同路线碾压。在扩散路线内部,PerceptionDLM 的 62.4% 把 LLaDA-V 的 35.2%、SDAR-VL 的 31.3% 远远甩开,接近翻倍。同时它的整榜耗时 276 秒只有 LLaDA-V(3241 秒)的零头——说明此前的扩散多模态模型不仅准确率不行,跑得也慢,PerceptionDLM 是”又快又准”地把扩散路线拉到了可用线。
逼近但仍不及顶尖 AR。和最强的自回归方法比,它 62.4% 还落后于 GAR-8B(69.5%)、DAM-3B(69.2%),但已超过 PixelRefer-7B(60.5%)。也就是说,质量上它还没全面超越 AR 的天花板,但已挤进第一梯队的下沿。
并行度是它换来的筹码。TPF 2.9 对所有基线的 1.0,直观说明它一次前向能同时产出近 3 个区域的内容;整榜 276 秒比串行的 GAR(479 秒)、PixelRefer(718 秒)都更省时——它用”略低的单点质量”换”显著更高的吞吐”。
并行红利随区域密度放大。在每图 4 个掩码、工作量恒定的设定下,完全并行带来最高 3.44× 吞吐提速,单图延迟 10.04s → 2.92s(官方仓库把这个数四舍五入写作”3.4×”)。区域越密,串行架构越吃亏,这正是它的优势区间。

通用多模态能力上,论文称其基座 PerceptionDLM-Base 在 16 项多模态基准里有 15 项超过 LLaDA-V(逐项分数在论文图表中,文本不可提取)——意思是为做并行感知换底座,并没有牺牲模型的通用看图能力。

消融实验里有两条值得记的结论,顺带暴露了方法的”命门”:

消融项	结果	含义
去掉区域提示(region prompting)	平均准确率崩到 1.1%	“告诉模型描述哪个区域”的提示是整套方法的命脉,缺了基本不工作
去噪步数	32 步最优(73.5% 平均、276s)	步数是质量与速度的旋钮,过少质量掉、过多变慢
视觉编码器	冻结优于可训练 ViT	直接用预训练 SigLIP-2 冻结表征,比联合微调视觉塔更好

作者也坦陈了局限:跨区域属性串扰(相邻区域的属性被混到一起)、极小/被遮挡区域描述不准、幻觉出图中不存在的属性、以及细粒度文字(OCR)易错。这些恰是并行方案天然要面对的难点——多个区域同时填,彼此的”边界”比串行更难守。

为何重要

把这件事放进更大的脉络,有三层意义。

第一,它给”扩散语言模型到底有没有用”提供了一个少见的正面证据。过去一年多,扩散语言模型作为自回归之外的另一条生成路线被反复讨论,卖点就是”并行解码、不必逐 token”,理论上能更快。但在多模态领域,扩散路线长期”叫好不叫座”——本文里 LLaDA-V、SDAR-VL 在 ParaDLC-Bench 上只有 30%出头的准确率就是写照。PerceptionDLM 第一次在一个对并行天然友好的任务(多区域同时描述)上,把扩散的并行优势兑成了实打实的吞吐数字(3.44×),同时把质量拉到接近 AR 第一梯队。它没有声称扩散全面胜过自回归,而是精准地找到了一个扩散更划算的应用面——这种”扬长”比泛泛比拼更有说服力。

第二,它指向了一个被低估的效率维度:并行度,而非单纯的模型小型化。业界谈推理提速,惯性思路是把模型做小、做量化、做蒸馏。PerceptionDLM 走的是另一条——在同等规模(8B)下改变解码范式,让”一次前向干更多活”(TPF 从 1.0 到 2.9)。对区域数多、需要批量标注的场景(自动数据标注、密集场景理解、机器人感知),这种”随密度放大”的并行红利,比单点延迟更值钱。

第三,ParaDLC-Bench 和 GPT-5.2 评判本身是一个信号。作者不满足于在偏单区域的旧 benchmark 上刷分,而是专门造了一个**强调”一图多区域”**的新基准,并把评判模型换成更强的 GPT-5.2。这等于在为”并行区域感知”这个细分方向立一把更合适的尺子。新方向常常先有方法、后有公认基准,benchmark 与方法同源时要警惕”自家尺子量自家活”的偏差,但它也确实把评测从单区域推向了更贴近真实需求的多区域设定。

值得提一句团队构成:北大 + ByteDance + 武大 + CASIA + NUS 的组合,既有学界的方法探索,也有工业界(ByteDance)的工程与算力底子(32× H100、数百万级自建语料),这类产研结合的班底是近年中国多模态研究里效率方向的典型配置。

早报观点

我们的判断:PerceptionDLM 真正有价值的地方,不是”扩散又赢了自回归”这种路线之争的口号,而是它示范了一种务实的找场景能力——别拿扩散去和 AR 比所有事,而是去找那些”任务结构本身就并行”的地方(一图多区域),让扩散的并行解码刚好踩在优势点上。3.44× 的吞吐提速是在”每图 4 个掩码、工作量恒定”这个特定设定下取得的,它是条件成立的结论,不是普适加速比;区域越稀疏,这个红利越薄,读者不要把它当成”扩散一上来就快 3 倍”。

第二个 caveat 必须说清:质量上它还没赢。62.4% 仍落后 GAR-8B 的 69.5%、DAM-3B 的 69.2%,它是”用一点质量换不少速度”。对在意标注精度的场景,这笔交易未必划算;对在意吞吐、能容忍单点略弱的批量场景,它很香。把它读成”全面超越 AR”是误读——论文自己的措辞也克制,只说在扩散路线内领先、在 AR 里挤进梯队。

第三,这是单一团队的自报结果,且 benchmark 与方法同源。ParaDLC-Bench 是作者新造的,评判用 GPT-5.2,数字虽在 HF、arXiv、GitHub 三处一致,但都源自同一篇工作,目前没有独立第三方复现。它开源了代码、模型、数据和 benchmark(这点很加分,可复现性强),但”自家造尺子量自家活”的潜在偏差,要等社区拿它的开源权重在别的设定下跑过才能消除。在那之前,把它当成”一个有前景的方向证据”,而非”已成定论的效率突破”,是更稳的姿态。

最后一点延伸判断:消融里”去掉区域提示准确率崩到 1.1%""跨区域属性串扰仍是局限”,其实点破了并行区域感知的根本张力——多个区域同时填,边界比串行更难守。它现在靠精心设计的结构化注意力掩码勉强守住,但这套机制在区域数更多、布局更复杂时能不能扩展,是这条路线能走多远的真问题。并行不是免费的,省下的时间,部分是用”管理区域间干扰的工程复杂度”换的。

接下来看什么

独立复现。它开源了模型、数据与 ParaDLC-Bench,看社区是否拿其权重在第三方设定(不同评判模型、不同源图)下复现 62.4% 与 3.44× 的结论,是去除”自家尺子”偏差的关键一步。
区域密度的扩展性。3.44× 是每图 4 掩码下的数;盯一图 8、16、32 个区域时,吞吐红利还能不能维持、跨区域属性串扰会不会随密度恶化。
质量差距能否补上。当前比 GAR-8B 低约 7 个百分点,后续版本或更大规模能否在保住并行优势的同时把准确率追平 AR 第一梯队。
扩散路线的外溢。这套”高效提示 + 结构化注意力掩码”的并行做法,会不会被迁移到指代分割、密集 OCR、视频多目标等其它”天然多实例”的任务上——那才是判断它是单点技巧还是通用范式的试金石。
GPT-5.2 当评判的稳定性。用更强模型当 judge 是趋势,但 LLM 评判自身的偏差与一致性也需要被检验,看是否有对照人工标注的一致率披露。