Topic Timeline

#开源量化

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

产品上新 2026-06-26 · 周五

NVIDIA/vLLM 发布 GLM-5.2 NVFP4 量化版,一行命令本地起服务

NVIDIA 与 vLLM 官方发布 GLM-5.2 的 NVFP4 4-bit 量化 checkpoint,`vllm serve nvidia/GLM-5.2-NVFP4` 即可起 OpenAI 兼容 API;针对 Blackwell 大幅削减 VRAM,且在推理/编码/1M 上下文上对精度持平。GLM-5.2 为 753B 参数 MoE,擅长 agentic 负载。

NVFP4 让 753B 级开源模型在单机 Blackwell 上零云成本跑 agentic 负载成为现实,是开源权重"可用性"的一次实质跃迁。但它也暴露矛盾:开源模型要靠 NVIDIA 官方量化才好用,硬件生态话语权仍握在闭源一方。对照 Mollick"终端用户只想要大牌"的观察,本地自托管仍是少数硬核团队的游戏。