DeepMind 双发 Nano Banana 2 Lite + Gemini Omni Flash:把生成式媒体价格砍到 $0.034/图与 $0.10/秒,头部模型价格战全面引爆
Nano Banana 2 Lite + Gemini Omni Flash 同步上线,文生图 Arena 第 5、视频编辑 Arena 第 2,价格分别砍到 $0.034/图与 $0.10/秒。
本文要点
- 从'文生图头部看质量、轻量档看成本'变为'轻量档同时具备 ELO 1251 + $0.0336/1K + <4 秒/图'——Nano Banana 2 Lite 把轻量档的'质量-成本'曲线同时推高,**高 ELO 不再是旗舰的特权**
- 从'文生视频按 Standard/Fast 两档定价'变为'Omni Flash 与 Veo 3.1 Fast 同价($0.10/秒 720p)'——**'视频编辑/生成智能上限'被压到'快速档视频生成'的同一价位**,DeepMind 内部产品矩阵完成对齐
- 从'文生图批处理是企业内部工具'变为'Nano Banana 2 Lite 客户名单全部是产品内生场景'(Figma Weave 节点画布 / Manus AI 实时工作流 / Artlist 创意内容 / Latitude 交互世界生成)——**生成式图像正式成为 SaaS 产品的内生能力,而不是设计师手动出图工具**
- 从'文生视频需要专用工具链(Sora、Runway、Pika)'变为'Omni Flash 在 Gemini app / Google AI Studio / Gemini API / Google Flow / YouTube Shorts 五个入口同源可用'——**视频生成第一次被 Google 打通到与 Gemini 文本/图像相同的入口架构**
- 从 Veo 3 标准档($0.40/秒)到 Omni Flash 标准档($0.10/秒),DeepMind 视频生成的标准档价格**直接砍掉 75%**——这是 Veo 3 于 2026-06-30 弃用、Veo 3.1 同期被 Omni Flash 部分替代的真正驱动
- 从'生成式媒体的边际成本按 token/秒计算'变为'按 CDN 流量计费'(Lite 档 $0.0168/1K + <4 秒,意味着 $0.0001/秒图像生成)——**生成式媒体正式进入'流量计费'时代**
2026 H1 头部生成式模型在 Arena 上的排名变化越来越小——30 天前还互相反超的相邻名次,如今已经稳定成梯队差距;价格与吞吐量正在取代智能上限成为差异化主轴。DeepMind 这一轮双发把文生图与文生视频的边际成本同一天砍到接近 CDN 流量计费水位,是这一拐点的最清晰信号:
- Nano Banana 2 Lite(Gemini 3.1 Flash-Lite Image):文生图 Arena 1251 分排名第 5(前 4 名为 OpenAI / Anthropic 系旗舰),标准价 $0.0336/1K 图、Batch 价 $0.0168/1K 图、单图 <4 秒——前 4 名旗舰与第 5 名 Lite 之间,价格差距普遍是 3-5 倍量级;
- Gemini Omni Flash Preview:视频编辑 Arena 1347 分排名第 2,领先第 3 名 HappyHorse 1.0(1308 分)约 40 分,$0.10/秒 720p 与 Veo 3.1 Fast 完全同价——把”视频编辑/生成智能上限”压到”快速档视频生成”的同一价位。
把这两个数字放在一起读,信息量不在单点突破——而在于 DeepMind 在同一天用两款模型把”高 ELO 轻量档文生图”与”视频编辑/生成智能上限”两个位次同时拉到了接近商品化的水位。这件事的真正冲击不是”又出两个新模型”,而是2024-2025 那种”以智能上限为差异化主轴”的窗口,在 2026 H1 正式关闭;价格、吞吐量、产品内生场景整合成为新的主轴。
为什么是现在:拐点已经在发生
把这件事放进 2024-2026 三年尺度看,2024-2025 的生成式媒体市场一直是”智能上限优先”的格局——文生图看 Midjourney v6/v7、Imagen 4 Ultra、GPT Image 1.5;文生视频看 Sora 1/2、Veo 3.1 Standard、Runway Gen-4。价格不是主要变量,因为大家都在为”智能上限”付费。
2026 H1 进入了一个关键拐点:头部模型智能上限差距持续收敛,Arena 分数在 30 天内的排名变化越来越小。Nano Banana 2 Lite 以 Lite 档身份做到 Arena 第 5(ELO 1251),意味着”高 ELO 不再是旗舰的特权”——前 4 名的旗舰与第 5 名的 Lite 之间的差距,远小于价格差距。这是过去三年从未出现的结构性变化。
DeepMind 这一轮双发同时具备两个性质:
- 价格信号——把文生图批处理价(Standard + Batch)直接砍到 $0.0168/1K(按 100K 图/天算单日成本 $1.68),文生视频压到 $0.10/秒 720p 与 Veo 3.1 Fast 同价;按 60 秒短视频折算 $6/条,已经接近专业短视频工作室的边际制作成本;
- 场景信号——Nano Banana 2 Lite 的首批 5 家客户全部是”产品内生场景”:Figma Weave(节点画布实时迭代)、Manus AI(实时工作流)、Artlist(创意内容制作)、Latitude(交互世界生成)、Weekend(Wit’s End TV 互动游戏)。这五家的共同点是”高频率 + 单图成本敏感 + 接受偶尔瑕疵”——生成式图像正在从”设计师手动出图工具”变成”SaaS 产品的内生能力”。
把这两个性质放在一起:价格已经把生成式图像批处理推到 CDN 流量计费量级,场景又恰好在”SaaS 内生”这一拐点上——这意味着 $0.034/图的 Lite 档不只是”更便宜的 Midjourney”,而是”重新定义生成式媒体客户类型”的产品:从设计师个人付费,转向 SaaS 按调用付费。
谁会被反向压制:分价位段的影响传导
把 DeepMind 的双发放进 2026 H2 的竞争格局,需要按”价格段 × 客户类型”两个维度拆解影响传导:
| 价格段 | 对手 | 压力方向 | 强度 |
|---|---|---|---|
| 文生图 $0.03-0.05/1K | GPT Image 1.5 标准档($0.10/1K 估)、Midjourney 订阅制 | 价格 2-3 倍压制 | 强 |
| 文生图 $0.10+/1K | Imagen 4 Ultra($0.06)、GPT Image 1.5 旗舰 | 高 ELO Lite 直接替代 | 中 |
| 文生视频 $0.10/秒 720p | Sora 2 公开价(本稿未能独立确认)、Runway Gen-4($0.05-0.12/秒) | 同价位段正面竞争 | 强 |
| 文生视频 $0.20+/秒 | Sora 2 高端档、Veo 3.1 Standard($0.40/秒) | 价位下移压力 | 中 |
| 创意工作室级出图 | Midjourney v7、Sora 2 旗舰 | 几乎无影响(垂直场景不重叠) | 弱 |
对 OpenAI(Sora 2 + GPT Image 1.5): 入口架构是最关键的冲击点。Omni Flash 已经嵌入 Gemini app / Google AI Studio / Gemini API / Google Flow / YouTube Shorts 五个入口,而 Sora 2 目前仅在 ChatGPT 与 Sora 独立 App 内可用——当生成式视频从”独立 App”变到”通用 AI 助手的内生能力”,Sora 2 在产品形态上的独占优势会被显著稀释。GPT Image 1.5 标准档按 $0.10/1K 估,价格差约 3 倍,需要回应 Lite 档反击。
对 Midjourney: Nano Banana 2 Lite 把”高 ELO 轻量档”做到 $0.0336/1K,对 Midjourney 的 SaaS 订阅模式构成”按需 vs 订阅”的范式挑战——尤其是当 Lite 档与 Figma Weave / Manus AI / Latitude 这一类”产品内生场景”深度整合后,产品方更愿意按调用付费而不是按月订阅。但 Midjourney 在”创意工作室级出图”这一垂直场景仍是 SOTA,Lite 档的局限性(小脸 / 拼写 / 细粒度 / 复杂编辑 / 角色一致性)决定了它不直接竞争 Midjourney 的高端场景。
对 Runway: Omni Flash 把”视频编辑/生成智能上限”压到 $0.10/秒,且在 T2V / VBench I2V / Reference-to-Video 多个内部基准上第一——这是 Runway 第一次在”价位 + 智能上限”两个维度同时被 DeepMind 追平或反超。Runway 此前作为视频生成独立厂商的优势是”专业工作流 + 长视频能力”,Omni Flash 在 60 秒以上的长视频上目前没有公开价位(Omni Flash 标准价仅列 720p),长视频仍是 Runway 的护城河。
对 Anthropic: 截至本稿没有公开独立的文生图 / 文生视频产品(虽然 Claude 系列多模态能力在持续增强)。Nano Banana 2 Lite + Omni Flash 的双发,事实上巩固了 DeepMind 在生成式媒体的”专精厂商”地位——Anthropic 与 OpenAI 走”通用智能体 + 文本”路线,DeepMind 走”生成式媒体专精”路线,这是 2026 H2 头部模型厂商路线分叉的进一步显化。
30-90 天内需要观察什么
这场价格战的边界,将在未来 30-90 天内由三件事决定——每一件都有可观察的硬指标:
第一,OpenAI 与 Midjourney 是否在 30 天内跟进同等价位段的反击。 可观察指标:Sora 2 是否在 30 天内降价至 $0.10/秒以下,或推出对等 Lite 档;Midjourney 是否推出 API + 按图计费(打破订阅制垄断);GPT Image 1.5 Lite 是否上线 $0.04/1K 以下的价位段。这三件事直接决定这场价格战是 DeepMind 一家独大还是多边收敛。如果 OpenAI 推出 Sora 2 Lite 档且压在 $0.05/秒以下,生成式视频轻量档的位次会被重写;如果 OpenAI 仍坚持 Sora 2 单一档位($0.20-0.40/秒),则 DeepMind 在轻量档的位次会持续到下一代产品发布。
第二,Nano Banana 2 Lite 的”产品内生场景”渗透速率。 可观察指标:Figma Weave / Manus AI / Artlist / Latitude / Weekend 这五家首批客户在 Lite 上线后 30 / 60 / 90 天的实际 API 调用量、用户停留时长、对应的工作负载类型——这是判断 Lite 档是否真的从”设计师手动出图工具”变成”产品内生能力”的最直接证据。如果 Batch API 在首批 10 个 SaaS 客户中达到 50%+ 调用占比,说明生成式媒体正式进入”流量计费”时代;如果仅 20-30%,则大部分调用仍是 Standard 档,价格战的实际冲击比纸面数字温和。
第三,Veo 3 弃用后 Omni Flash 是否承接 4K / 1080p / 60 秒以上长视频。 Veo 3 在 2026-06-30 正式弃用,可观察指标:Omni Flash 是否在 30 天内扩展到 1080p / 4K / 60 秒以上长视频,以及对应价格分层是否会调整。这决定 DeepMind 视频生成是”Standard / Fast / Omni Flash 三档同价位”还是”720p 交给 Omni Flash、1080p+ 仍由 Veo 3.1 占据”的内部产品矩阵。如果 Omni Flash 30 天内扩展到 4K,Veo 3.1 Standard($0.40/秒 4K)会被直接压缩,DeepMind 视频生成将完成”全档同价位”的内部产品矩阵;如果只守 720p,Veo 3.1 Standard 仍是 DeepMind 视频生成的最高价位护城河。
几个间接但关键的辅助指标: Arena 视频编辑榜单第 1 名(目前未公开)与 Omni Flash 1347 分的差距——这是判断 Omni Flash 是”稳居第 2”还是”反超第 1 候选”的关键;Nano Banana 2 Lite 的 0.5K / 2K / 4K 分辨率档位是否在 30 天内披露(目前定价页只明确 1K 价位);DeepMind 是否在 2026 H2 把 Omni Flash 下放到 Consumer 端 Gemini app(目前仅在企业 / 开发者侧,YouTube Shorts 入口已可用但 Gemini app 主入口未直接嵌入)——这会决定它与 Sora 2 在消费者市场的直接对位。
关键数据:DeepMind 视频生成的内部产品矩阵
把两款模型放进 DeepMind 自家产品矩阵读,可以看出 Omni Flash 与 Veo 3.1 系列的内部对齐节奏:
| 模型 | 模型 ID | 720p | 1080p | 4K | Arena 视频编辑 ELO | 定位 |
|---|---|---|---|---|---|---|
| Gemini Omni Flash | gemini-omni-flash-preview | $0.10/秒 | n/a | n/a | 1347(第 2) | 生成 + 编辑高质量视频 |
| Veo 3.1 Lite | veo-3.1-lite-*-generate-preview | $0.05/秒 | $0.08/秒 | 不支持 | 未公开 | 极速档(能力更窄) |
| Veo 3.1 Fast | veo-3.1-fast-*-generate-preview | $0.10/秒 | $0.12/秒 | $0.30/秒 | 未公开 | 快速档 |
| Veo 3.1 Standard | veo-3.1-standard-*-generate-preview | $0.40/秒 | $0.40/秒 | $0.60/秒 | 未公开 | 高质量生产 |
| Veo 3 | veo-3.0-* | $0.40/秒(720p/1080p 同价) | n/a | n/a | 未公开 | 2026-06-30 弃用 |
数据来源:Google AI Studio 官方定价页、arena 官方 X、DeepMind 官方 Omni Flash 页面。
这一组数字的关键不是”又一款视频生成模型”,而是”Omni Flash 与 Veo 3.1 Fast 同价”。DeepMind 内部把”视频编辑/生成智能上限”压到”快速档视频生成”的同一价位(均为 $0.10/秒 720p),意味着 DeepMind 在 1080p 以下的视频生成上,把”高质量”与”高速度”统一为同一定价;1080p 以上仍由 Veo 3.1 Fast($0.12/秒)与 Veo 3.1 Standard($0.40/秒)占据。
Omni Flash 的内部基准进一步强化这个判断:DeepMind 官方模型页披露——T2V 1,003 prompt 在 Overall Preference 与 Instruction Following 双榜第一;VBench I2V 355 pairs 与 Grok-Imagine-Video、Kling 并列第一;Reference-to-Video 468 examples 在 Overall Preference 与 Speech Adherence 双榜第一;视频编辑 504-prompt head-to-head 全面领先。这意味着 Omni Flash 不是”Veo 3.1 的 Lite 替身”,而是一个在视频编辑 / 视频生成 / 视频参考多个任务上同时领先的新架构。
入口架构上,Omni Flash 与 Gemini 文本/图像同源——Gemini app / Google AI Studio / Gemini API / Google Flow / YouTube Shorts 五个入口同时可用——视频生成第一次被 Google 打通到与 Gemini 文本/图像相同的入口架构。这与 Sora 2(目前仅在 ChatGPT 与 Sora 独立 App)形成显著差异。
Nano Banana 2 Lite 的位次:轻量档的价格-能力曲线
把 Nano Banana 2 Lite 放进 DeepMind 自家图像产品矩阵读,可以看出”轻量档”在 Gemini 系的内部对齐:
| 模型 | 模型 ID | 标准 1K 价 | Batch 1K 价 | Arena 文生图 ELO | 定位 |
|---|---|---|---|---|---|
| Nano Banana 2 Lite | gemini-3.1-flash-lite-image | $0.0336 | $0.0168 | 1251(第 5) | 最快最便宜 |
| Nano Banana 2 | gemini-3.1-flash-image | $0.067 | $0.034 | 未公开(>1251) | 中端主流 |
| Nano Banana Pro | gemini-3-pro-image | $0.134 | $0.067 | 未公开(更高) | 高质量生产 |
| Imagen 4 Fast | imagen-4.0-fast | $0.02 | n/a | n/a | 已弃用(2026-08-17) |
| Imagen 4 Standard | imagen-4.0-standard | $0.04 | n/a | n/a | 已弃用 |
| Imagen 4 Ultra | imagen-4.0-ultra | $0.06 | n/a | n/a | 已弃用 |
数据来源:Google AI Studio 官方定价页、arena 官方 X、DeepMind 官方模型页。
这一组数字的关键不是”便宜”,而是”在 ELO 1251 分的高位仍能保持 $0.0336 的标准价”。前 4 名为 OpenAI 与 Anthropic 系旗舰(具体名单本稿未能独立确认),Nano Banana 2 Lite 作为 Lite 档杀入第 5,意味着它在与同价位段的所有对手(包括 GPT Image 1.5 标准档、Midjourney 订阅制等效摊销)的横向对比中,把”轻量档”的智能上限曲线整体抬高了一截。
把价格、ELO、入口架构放在一起读,可以看出 Nano Banana 2 Lite 的真实定位:不是”便宜的旗舰”,而是”专门为产品内生场景重新设计的轻量架构”。Weekend 公司的 Max Child 在客户证言中直接公开:Nano Banana 2 Lite 比 Gemini 3.1 Flash Image 约快 2.7 倍、延迟方差更紧、1K 图像保持一致——这与 Logan Kilpatrick 公布的”单图 <4 秒”相互印证。
但官方同时明确 Lite 档的五大局限:小脸、文字拼写、细粒度细节、复杂编辑(蒙版/日夜转换)、角色一致性——“高 ELO 轻量档”不是”高 ELO 旗舰”。这五大局限决定了 Lite 档的”甜蜜点”是产品内生的高吞吐量场景,对于需要”零瑕疵 + 精细排版”的设计工作室场景,Lite 档不是替代品——这与 Midjourney 创意工作室级出图、Adobe Firefly 商业素材生成仍是不重叠的市场。
Arena 表现的横向对照:第 5 与第 2 是什么量级
Arena(原 lmarena)是生成式模型盲评最权威的公开榜单,arena 官方 X 公告两个关键数字:
- Nano Banana 2 Lite:文生图 Arena 1251 分,排名第 5——作为 Lite 档模型,前 4 名为 OpenAI 与 Anthropic 系旗舰,这是 Gemini 图像系中 ELO 最高的轻量档。
- Gemini Omni Flash:视频编辑 Arena 1347 分,排名第 2,领先第 3 名 HappyHorse 1.0(1308 分)约 40 分——这 40 分的差距在 Arena 历史上属于”明显领先”档(超过 30 分基本可视为梯队差异)。
把这两个 ELO 放进”单价 / ELO”的性价比曲线读:
| 类别 | 模型 | Arena 分数 | 排名 | 单价 | 单价/ELO(分/美元) |
|---|---|---|---|---|---|
| 文生图 | Nano Banana 2 Lite | 1251 | 5 | $0.0336/1K 图 | 37,232 ELO / 美元 |
| 文生图 | Nano Banana 2(同系列中端) | 未公开(>1251) | >5 | $0.067/1K 图 | >18,671 ELO / 美元 |
| 文生图 | Nano Banana Pro(同系列旗舰) | 未公开(更高) | >5 | $0.134/1K 图 | <9,366 ELO / 美元 |
| 视频编辑 | Gemini Omni Flash | 1347 | 2 | $0.10/秒 | 13,470 ELO / 美元 |
| 视频编辑 | HappyHorse 1.0 | 1308 | 3 | 未公开 | n/a |
Nano Banana 2 Lite 的”37,232 ELO / 美元”性价比曲线,是本稿最重要的结构性信号——它意味着 “高 ELO 不再是旗舰的特权”,轻量档已经能在 ELO 1251 这样的高位与 $0.0336/1K 的标准价同时出现。这直接决定了 2026 H2 文生图的价格战基准线。
需要给一个 caveat:单价/ELO 是用本稿所掌握的单价除以 Arena 分数得出的比例,Arena 分数是排名指标,不是绝对能力指标,且 ELO 分数会随盲评对手池变化而浮动;但作为同一榜单内部、同一时间窗的横向比较,它仍然是说明”价格-能力曲线”的有效代理变量。
行业背景:DeepMind 在 2026 H2 的相对位置
把这两条线索放进 2026 H2 的格局,它们指向的是 DeepMind 在生成式媒体市场的位置变化:从”全产品矩阵厂商”走向”价格 + 吞吐量 + 产品内生场景整合”的新主轴领先者。注意是主轴领先者,不是绝对领先——OpenAI 的 GPT Image 1.5 与 Sora 2 仍是智能上限最高的厂商之一,Midjourney 在创意工作室级出图仍是 SOTA,Runway 在专业工作流 + 长视频仍有护城河。但价格与吞吐量的主轴,DeepMind 在 2026 年中明确抢到了领先位。
更值得说的是 2026 H2 的路线分叉。OpenAI 走”消费者 + 开发者”双轮——ChatGPT 订阅 + API 与企业合同并行,消费者流量是品牌护城河;Anthropic 走”纯企业级”路线——Claude Code + Claude for Work + 三大云渠道完整化,营收来自企业合同;DeepMind 走”生成式媒体专精”路线——Imagen / Nano Banana / Veo / Omni Flash 全产品矩阵 + Gemini app / Google AI Studio / Google Flow / YouTube Shorts 多个入口同源 + 三大云渠道同步渗透。三条路线孰优孰劣,2026 H2 会给出更清楚的答案:OpenAI 的消费者流量能不能转成生成式媒体的护城河,Anthropic 的纯企业定位能不能撬动生成式媒体需求,DeepMind 的生成式媒体专精路线能不能扛住 OpenAI 的全栈反击。
如果非要下一个判断:2026 H2 生成式媒体的竞争主轴正在从**“谁的智能上限更高”下沉到”谁的价格 + 吞吐量 + 产品内生场景结合得更紧”。DeepMind 这一轮双发(Nano Banana 2 Lite + Gemini Omni Flash)是这一下沉的最清晰信号,也是 2026 H2 生成式媒体竞争格局的结构性拐点**。但主轴领先不意味着终局领先——OpenAI、Midjourney、Runway 在 30-90 天内的反应,才是决定这场价格战边界的关键。
2026 H1 头部生成式模型在 Arena 上的排名变化越来越小——价格与吞吐量正在取代智能上限成为差异化主轴。DeepMind 这一轮双发把文生图与文生视频的边际成本同一天砍到接近 CDN 流量计费水位,是这一拐点的最清晰信号。但有几条 caveat 必须在判断里被显式承认:
第一,Nano Banana 2 Lite 是 Lite 档,不是旗舰——官方明确指出小脸 / 拼写 / 细粒度细节 / 复杂编辑 / 角色一致性五大局限,“高 ELO 轻量档”不是”高 ELO 旗舰”,它适合 Figma Weave 节点画布、Manus AI 实时工作流这一类”高吞吐量 + 足够好”的场景,不适合 Midjourney 创意工作室级出图。第二,Omni Flash 目前只列 720p 价位——1080p($0.12/秒 Fast)/ 4K($0.30/秒 Fast)/ 60 秒以上长视频仍由 Veo 3.1 占据,Omni Flash 是否在 30 天内扩展到对应分辨率是未知数。第三,Arena 视频编辑榜单第 1 名(未公开)与 Omni Flash 的 1347 分差距是多少?这是判断 Omni Flash 是”稳居第 2”还是”反超第 1 候选”的关键指标——40 分领先 HappyHorse 1.0 是确定的,但与第 1 名的差距官方未披露。第四,OpenAI、Midjourney、Runway 是否会跟进同等价位段的反击——Sora 2 降价 / Midjourney 推出 API + 按图计费 / Runway 推出 Gen-4 Lite,直接决定这场价格战是 DeepMind 一家独大还是多边收敛。第五,Google AI Studio 官方定价页的”Batch API 50% 折扣”在首批 Lite 客户中的实际采用率——如果达到 50%+ 调用占比,说明生成式媒体正式进入”流量计费”时代;如果仅 20-30%,则说明大部分调用仍是 Standard 档,价格战的实际冲击比纸面数字温和。
一句话:Nano Banana 2 Lite + Gemini Omni Flash 的同天双发,是 2026 H2 生成式媒体竞争从”智能上限”下沉到”价格 + 吞吐量 + 产品内生场景”的最清晰信号——它把文生图与文生视频的边际成本同时砍到接近 CDN 流量计费的水位。头部三家(OpenAI、Midjourney、Runway)的反应,将在未来 30-90 天内决定这场价格战的边界——但无论反应如何,生成式媒体正式进入”流量计费”时代这一拐点已经发生。
详细规格:Lite 档的"能力上限"与 Omni Flash 的"功能矩阵"
为了避免把价格战讲成纯纸面数字,把两款模型的具体能力边界再展开一层。DeepMind 在官方模型页与官方定价页披露的细节,透露出两款模型的真实定位——不是”便宜的旗舰”,而是”专门为产品内生场景重新设计的轻量架构”。
Nano Banana 2 Lite 的能力矩阵
DeepMind 官方模型页明确指出 Lite 档是drop-in API(即插即用,直接替换调用),支持:
- 文生图——给定 prompt 直接生成图像,1K 分辨率为主,延迟 <4 秒/图;
- 图像编辑——支持自然语言修改,角色一致性”不总是”可靠;
- 多图组合——单次 API 调用可输入多张参考图并合成;
- 真实世界知识——继承 Gemini 多模态系的知识库,识别”华盛顿”、“自由女神像”等具体实体;
- SynthID 水印——所有输出图像自动嵌入 SynthID 隐形水印,支持后续溯源。
Lite 档的五大局限:小脸(远景或人脸占比 <20% 时伪影)、文字拼写(非拉丁字符错误率显著高于旗舰)、细粒度细节(纹理 / 对称性 / 复杂几何)、复杂编辑(蒙版 / 日夜转换边缘伪影)、角色一致性(多图同角色”不总是”可靠)。这决定了 Lite 档的甜蜜点是产品内生高吞吐场景——Figma Weave / Manus AI / Artlist / Latitude / Weekend 五家客户的共同点是”高频率 + 单图成本敏感 + 接受偶尔瑕疵”。对于需要”零瑕疵 + 精细排版”的设计工作室场景,Lite 档不是替代品。
Gemini Omni Flash 的功能矩阵
DeepMind 官方模型页把 Omni Flash 定位为对话式视频生成 + 编辑——这是它与 Sora 2(以文生视频为主战)在产品形态上的核心差异:
- 对话式视频编辑——用户可以”分步对话”对已生成的视频做修改(改人物、改场景、改运镜),保留前后一致性;
- 多模态输入——可输入文本、图像、视频、音频四种模态,作为生成或编辑的参考;
- 场景与角色一致性——多轮编辑过程中,场景与角色外观保持一致;
- 自然语言对象/角色替换——支持”把这个人换成那个人”、“把这个背景换成海滩”等自然语言编辑;
- 动作与风格迁移——参考视频的动作可迁移到新场景,或把一种视频风格迁移到另一种;
- 草图转视频——可输入简单草图作为关键帧参考,生成完整视频;
- TTS 对口型——支持文本转语音,并与视频中的人物口型自动对齐;
- 屏幕文本渲染——支持在视频中渲染清晰的屏幕文本(这对短视频、广告、教学视频是关键能力);
- SynthID + C2PA 水印——视频自动嵌入 SynthID + C2PA Content Credentials 双水印,支持后续溯源与平台识别。
入口架构上,Omni Flash 是 DeepMind 第一个”全入口同源”的视频生成模型——Gemini app(消费者对话界面)、Google AI Studio(开发者调试界面)、Gemini API(开发者程序化调用)、Google Flow(创意工作流界面)、YouTube Shorts(短视频发布平台)五个入口同时可用。当生成式视频从”独立 App”变到”通用 AI 助手的内生能力”,视频生成的入口垄断就被打破。安全栈上,DeepMind 把 Omni Flash 设计为”SynthID + C2PA + 内部红队 + 自动化红队 + 伦理审查”的全栈安全模型——这意味着它能直接进入对内容溯源有强需求的场景(新闻、广告、教育、政务)。SynthID + C2PA 在 Omni Flash 视频输出中的实际水印强度(1080p/4K 视频压缩、剪辑、转码后是否仍可被验证)直接决定它在广告、新闻、版权场景的实际可用性——这是 OpenAI Sora 2 与 Runway Gen-4 都未明确披露的能力。
Google Flow 与 YouTube Shorts 入口的实际采用率(Omni Flash 在 Google Flow 与 YouTube Shorts 入口的调用量、创作者使用率、对应视频产出量),直接决定”通用 AI 助手的内生能力”这一产品形态是否真的能撬动消费者市场。Sora 2 凭借 ChatGPT 入口的对话式产品形态已经验证了”AI 助手内生视频生成”的市场需求,Omni Flash 在 YouTube Shorts 这一短视频主战场能否复制同等采用率,值得持续追踪。
Veo 3 / Veo 2 弃用(2026-06-30)后的迁移数据
Veo 3 / Veo 2 的现有客户向 Omni Flash 迁移的速率,直接证明 Omni Flash 是否真的承接了 DeepMind 视频生成的”主力位”。如果迁移速率快,意味着 Omni Flash 的功能边界已经覆盖 Veo 3 的核心场景;如果迁移缓慢,意味着 Veo 3 / Veo 2 客户对 4K / 1080p / 长视频的依赖仍强,Omni Flash 短期内仍需与 Veo 3.1 并行。
SynthID + C2PA 在 Omni Flash 视频输出中的实际水印强度
DeepMind 官方模型页提到 SynthID + C2PA Content Credentials 是默认开启,但水印是否能在 1080p/4K 视频压缩、剪辑、转码后仍可被验证,直接决定它在广告、新闻、版权场景的实际可用性。这是 OpenAI Sora 2 与 Runway Gen-4 都未明确披露的能力——若 Omni Flash 在这一维度领先,可能改写受监管行业的采购天平。