Topic Timeline
#SGLang
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
研究论文 2026-07-01 · 周三 重要度 3/5
SGLang DSpark 预测解码实测数据放出:多场景预测 3 token,1K prompt 加速比 1.81x,8 卡 B200 速度 164→297 token/s
SGLang 的 DSpark 预测解码实测数据在 PR29538 放出:多场景基本能预测 3 个 token(数学 3.37 / 对话 3.0 / 代码 3.52)。1K prompt 下加速比 1.81x,8 卡 B200 速度从 164 token/s 拉到 297 token/s。TPOT 仅 2.9-5.2ms,DSpark 神经网络层延迟可忽略。超过 8 并发收益降至 1.2-1.3x(GPU 已打满)。注:PR29538 尚未合并。这是继 DeepSeek 开源 DeepSpec(含 DSpark/DFlash/Eagle3 三种草稿模型)之后,DSpark 在 SGLang 推理引擎上的第一次完整数据披露。
DSpark 在 SGLang 上的实测数据揭示了『投机解码』的工程边界:1.81x 加速比与 3 token 预测长度,比 DeepSeek 自报的 60-85% 提速口径更保守——说明 DeepSeek 自报口径与第三方实测之间存在显著差异,这正是 6-28 DSpark 深度页里就指出的 caveat。同时『超过 8 并发收益骤降』的瓶颈提示:SGLang 与 vLLM 在投机解码与高并发调度之间的取舍,会成为下半年推理引擎的主战场。