产品上新

xAI 把 Grok Voice 拉成「语音 Agent 工厂」:Voice Agent Builder 上线,$0.05/分钟,把 ElevenLabs/Vapi 拽进同价位肉搏

xAI Voice Agent Builder 把 TTS/对话编排/电话网统一收口成 $0.05/分钟的订阅 SKU——比 ElevenLabs 便宜 37.5%、与 Vapi 平台费打平、把隐性的 STT+LLM+Telephony 拼装工作前置成 prompt。语音 Agent 的「中间层生意」被拉到了要么自降身段跟牌、要么拼质量上限的死路口。

2026年7月3日 · 周五 深度报告 中置信 重要度 4/5

本文要点

  • xAI 把 Grok Voice 从「Grok App 内的附属功能」升级为「独立 SKU / Voice Agent Builder 入口」,首次出现公开的统一分钟定价 $0.05/min
  • voice agent 从「Vapi 写 SDK、Retell 拼 LLM、ElevenLabs 做 TTS、Twilio 做电话网」的多供应商拼装,变成「模型厂全栈 SKU」——这是 voice agent 的中间层被绕开的关键节点
  • 定价锚点从 ElevenLabs Conversational AI 的 $0.08/min、Vapi hosting $0.05/min、Retell 复合 $0.07-$0.31/min,被 xAI 的 $0.05/min 全栈一键价拉到同价位最低——意味着买方的 CFO 决策树变了:再走多供应商拼装,性价比不再站得住

发生了什么

xAI 官号 @xai 在 2026-07-01 15:33 UTC(北京时间 7-1 23:33)推送了一条发布帖,把 Voice Agent Builder 公开上线:

Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today at $0.05 / min.

配了一段演示视频(48s 短片,展示了「写一段 prompt → 选 Grok Voice 声音 → 一键发布到 webhook/电话」端到端流程)。发布后 24 小时内该帖累计 8,177 赞、863 转推,是 xAI 官号自 Grok 4 推理版 launch 以来互动量最高的一条推文,也是 2026 年至今 X 平台 AI 产品发布里互动量最高的一类——同日被 Agentic AI 架构师 @1aifanatic 在评论区贴出「5 分钟搭一只 xAI Voice Agent」的端到端视频作为第二次扩散器(发布后 24h 内又被 100+ AI/Agent 类账号转推)。

定位一句话:把「做一只能接电话的 AI」从 Vapi / Retell / ElevenLabs 那种「写代码 + 拼 LLM+STT+TTS+Telephony」的工程活,压到「写 prompt + 选声音 + 点发布」的运营活——同时在分钟单价上贴脸 Vapi($0.05)、低于 ElevenLabs($0.08)一截。

价格对照表:它把谁拽进了同价位肉搏

平台 / SKU平台 hosting 单价LLM / STT / TTS 计费电话网计费备注
xAI Voice Agent Builder$0.05/min(全栈一口价)含在 $0.05 内(Grok Voice + Grok LLM)口径待官方文档确认7-1 上线、无代码、Prompt-driven
Vapi(Build)$0.05/minSTT/LLM/TTS 按成本 pass-through(可 BYOK)按渠道转手 Twilio/Plivo 等与 xAI 平台费打平,但模型电话要自拼
ElevenLabs Conversational AI$0.08/min(标准)/$0.16/min(burst)LLM/Telephony 按成本转手同样按成本Pro $99 起、Business $990 起
Retell AI$0.07-$0.31/min(典型 $0.11/min)已分段(Voice Infra / TTS / LLM)Twilio/SIP 自由每段加价透明,适合高单价定制
OpenAI Realtime API(GPT-4o)~$0.07-$0.345/min(按模型档)音频 token 直接计费通常自配是 Vapi/Retell 上一档的「上游成本」

读这张表要记三件事:

  1. xAI $0.05 与 Vapi $0.05 不在一个意思上——Vapi 的 $0.05 是「平台费」、LLM/STT/TTS 单独再算;xAI 的 $0.05 是「含 Grok Voice + Grok LLM」的统一价。要比真实总成本,Vapi 客户还要在 OpenAI / Anthropic / Cartesia 那边再加 $0.04-$0.20/分钟。
  2. ElevenLabs $0.08 是 hosting 单价,但企业真实总价会被 LLM/Telephony 再推一截——xAI 的潜在 $0.05 总价在中小企业场景下比 ElevenLabs 便宜 40-60%
  3. Retell 把每分钟拆得很透明(Voice Infra $0.055、TTS $0.015、LLM $0.012-$0.32、Telephony $0.015),如果客户用 GPT-5.5 + ElevenLabs 语音 + Twilio US,实际分钟单价会推到 $0.20-0.31——这是 xAI $0.05 直接打到企业客户 CFO 桌面上的最大对比锚点。

产品形态:Grok Voice 从附属功能升到平台 SKU

Voice Agent Builder 是 xAI 第一次把 Grok Voice 单独定价、单独建一条产品线。回顾 Grok Voice 的演进路径:2025-09 起它只在 Grok App 内做语音对谈、零价,这次是把 TTS 从「App 内附属」升级成「可被 CFO 签字的 SKU」。具体可观察到的形态:

  • 创建入口:演示视频中显示一个 browser-based 工作台,左边 prompt 框 + 中间声音库(Grok Voice 多档音色)+ 右边 webhook/发布按钮——典型的「no-code builder」UI,与 Zapier / Make 那类 RPA 工具风格相近。
  • 沉淀路径:用户先用 prompt 描述 Agent 的人格、知识库边界、转人工规则,Grok 在后台自动接 Grok LLM 推理与 Grok Voice TTS,不需要单独接 STT 或 Twilio。
  • 发布形态:1-click publish 到 webhook、嵌入网页 widget、或对接电话号码(具体支持 PSTN/SIP/WebRTC 的能力矩阵,目前 x.ai / console.x.ai 公开页面 403,我们从 xAI 推文与社区试用里没拿到完整 API 文档)。

换句话说,xAI 现在对外的姿态是:让 buyer 只用看「我每分钟付 $0.05」这一行,把 STT/LLM/TTS/PSTN 的工程动作完全藏到 prompt 之后。这是一种典型的「把基础设施做成可订阅商品」的厂商做法,与 OpenAI 把 GPT-4o Realtime 做成 audio token、Anthropic 把 Claude Code 做成订阅 IDE 是同一逻辑。

把这张价目表拆开:每一分钱的归属

要理解 xAI $0.05/min「到底便宜在哪」,必须把分钟成本拆开看。一通典型 1 分钟 voice agent 电话,后台发生的事大致是:

环节工作内容谁在做历史典型成本
STT把用户语音转文本Whisper / Deepgram / Cartesia$0.006-$0.02
对话编排LLM 推理 + 工具调用 + 知识检索OpenAI / Anthropic / Grok$0.02-$0.30(随模型档)
TTS把 LLM 输出转语音ElevenLabs / Cartesia / OpenAI TTS$0.015-$0.04
TelephonySIP/PSTN 中继Twilio / Plivo / 自托管$0.015-$0.05(随地域)

四段相加,Vapi / Retell 客户走「GPT-5.4 + Retell Platform Voice + Twilio US」的 Retell 官方样例要 $0.11/min;ElevenLabs Conversational AI 在 Pro 套餐是 $0.08/min hosting + 推算 $0.04-$0.10/min LLM+telephony 合计 $0.12-$0.18/min;企业定制(用 ElevenLabs Turbo、Anthropic Opus、Twilio 800 号)被推到 $0.20-0.31/min 是行业已知常态。

xAI 把四段合并到一个 $0.05/min 上,数学上怎么跑通?几种可能:

  1. 自研语音栈成本极低:Grok Voice 系列在 xAI 内部用 Grok 同源 transformer,不需要为 STT 和 TTS 各开一条模型管线,边际算力成本被压到了 batch 内 LLM 推理的影子成本。
  2. 电话网批发:xAI 跟 Twilio / Plivo / Bandwidth 谈到 enterprise 批价,或者干脆自建 SIP trunk(X 平台已有的语音 DM 基础设施可复用),把 telephony 这一段从 $0.015-$0.05 压到接近零。
  3. 平台补贴:Elon Musk 旗下 X / Tesla / xAI 协同场景下,Voice Agent Builder 是与 X 平台私信自动化、Grok App 内 AI 角色、Tesla 客服协同的同一栈,公开价位可以由内部业务量补贴。
  4. 新客赔本引流的 SDK 战:OpenAI Realtime mini 当下也是 $0.07/min,GPT-4o Realtime 区间 $0.10-$0.40——xAI 在这个价位抢用户,后续靠 fine-tuning、数据驻留、API 等增值服务变现。

无论哪种解释,$0.05/min 都让「中小企业做一只语音客服 / 外呼 Agent」的总价第一次压到了 每月每并发 $300/月以下(以 100 分钟/天 × 30 天算),而 Vapi/Retell 同段位大约要 $600-$1,500/月/并发。这是「让 agent 从 demo 走到生产部署」的财政门槛被砍掉了一个零。

早报观点

Voice Agent Builder 的要害不在 TTS,在「SKU 形式」。ElevenLabs、Vapi、Retell 这三家 2024-2025 一直做的事都是「做中间层」:ElevenLabs 做 TTS 标杆,Vapi 做 orchestration SDK,Retell 做 LLM 拼装——共同点是都要把客户的 LLM / STT / PSTN 账单再切成碎片。xAI 这步直接打穿了:模型厂把自己整套栈打包成 $0.05/min 的可签字 SKU,中间层不再有可拼装的缝隙,要么降价跟牌、要么拼质量上限。

对 buy side 的真正含义:CFO 决策树变了。任何 2026-H2 上线 voice agent 的项目,「选哪家中间层」不再是默认问——而是「要不要跳过中间层直接接 xAI」。中小企业(呼叫中心 1-50 路并发)默认走 $0.05 这个价位,大约占 voice agent 用户盘的 60-70%。这一段 xAI 直接吃到肉,Vapi / ElevenLabs / Retell 要么把价降到 $0.04/min 区间血腥内卷、要么用「我们没有 xAI 的安全 / 合规 / 多语言覆盖」打 enterprise 段位——后者是 30-40% 客户、也是 voice agent 利润最厚的段位。

对模型厂侧的暗流:xAI 这步把 OpenAI Realtime 也间接拖着走。GPT-4o Realtime 在 Retell 那里是 $0.345/min、GPT Realtime mini $0.07/min,OpenAI 如果不加快把 Realtime 也打成「一口价平台费」(类似 $0.04/min),Anthropic 把自己的 voice 接口做便宜,等于把 voice agent 这一段也送给 xAI。Google 那边 Gemini Live API 也处于真空中——三个老牌模型厂如果不跟,就看着 xAI 把 voice agent 这一段独吞。

三个被忽视的 caveat:(1) $0.05/min 是否真覆盖 PSTN 中继费与并发超额价,官方目前没有价目表页,可能是把电话网隐性成本挪给客户的「低价头部」;(2) BYOK(Grok 之外的 LLM 接入)在 SDK 与 builder 里是否开放,这决定 xAI 对 Anthropic/OpenAI 客户是「中性」还是「绑死 Grok」;(3) 中文 / 阿拉伯语 / 印度英语的多语种延迟与可懂度——xAI 现在的 demo 几乎全英语,这块 GPT-4o Realtime 与 ElevenLabs 已经跑过 12 个月实测,差距决定了 xAI 能否吃到大中华区与中东市场。

这是一次「模型厂绕过中间层直签客户」的典型一役。和前一日 Z.ai ZCode 把 Anthropic/OpenAI 订阅装进 GLM 桌面是同一根轴——「专业工程产能被抽干,模型厂直接绕到终端用户」。也呼应了同期 BNB Chain(BNB Agent Studio)与 OKX(AI Agent Marketplace)在链上资产 Agent 赛道做同样动作——同周节奏里 AI / Web3 / 模型 IDE 都奔「把开发者降级到运营 / 普通用户」。这是 2026-H2 最值得跟踪的产业主线。

与同类 Agent 平民化的同周节奏

这一周 voice agent 不是孤例:

  • 2026-07-01 同日,BNB Chain 的 BNB Agent Studio 把链上资产 Agent 的创建压成「拖拽 + 提示词」工作流,主线是降低 Web3 用户的钱包/合约操作门槛。
  • 2026-07-02(前一日早报深度),Z.ai 的 ZCode 把 GLM-5.2 推成官方 IDE,允许 BYOK(直接接入 Anthropic Claude / OpenAI Codex),把国产开源模型厂商从「API 提供方」迁移到「开发者桌面 + 订阅生态」。
  • 2026-06-30 周一,OKX 上线 AI Agent Marketplace,把 Agent 的分发与变现做出 marketplace。

四件事一起读,主线是同一根:「模型/能力厂的中间层被自家产品直接打穿,买方跳过中间层直接订阅原厂」。Voice Agent Builder 把这一根逻辑从文字/代码模态拓展到了语音模态。

中间层会怎么反应:三种可能的剧本

打穿了中间层的同价位竞品,中间层不会原地等死。值得盘点的三种典型反应路径,以及它们的胜率:

剧本 A:降价跟牌(概率 50%)。把 hosting 单价压到 $0.04/min 区间,拿 enterprise 一段位与 xAI 在中小企业硬碰。这条路对 ElevenLabs 阻力最小(它有 TTS 标杆溢价),对 Vapi 阻力最大(它本来就是 $0.05 平台费,再降就是烧融资)。这条路短期会打到 xAI 的 30-40% 客户段位,但长期看价格战没有赢家——这就是为什么 Vapi 在 2026 上半年已经把 Build Plan 改成「60+ 分钟免费 + 平台费」组合,而不是直接降单价。

剧本 B:做质量上限(概率 30%)。把 voice agent 拉到一个 xAI 短期内追不上的位置——例如 100+ 语种专业级 TTS(Speech-to-Speech 一体化、亚秒级双向翻译)、call center 级的合规(HIPAA / PCI / SOC 2 全套)、私有化部署到客户 VPC、BYOK 全模型支持。这是 ElevenLabs 这两年走的路线(Business 套餐 $990/月 吃的是这一段),也是 Vapi Scale Plan 的企业差异化。这一段 xAI 短期内难追(尤其合规与多语种),但问题是这一段客户占 voice agent 总盘 30-40%、利润可能占 60%——足以让中间层活下去,但无法阻挡 xAI 吃掉剩余的中小企业大盘。

剧本 C:绑定 xAI 当渠道(概率 20%)。Voice agent 中间层转身做 xAI Voice Agent Builder 的「上层应用」或「专业服务」,例如做定制音色库、做医疗 / 法务 / 金融垂直领域的合规工作流。这种玩法与过去 Salesforce 在 AppExchange 上做 ISV 类似——不与模型厂对抗,而是寄生在它的平台流量上。这条路对 Vapi / Retell 团队来说最体面,但要求 xAI 必须开放 BYOK、外部 webhook 与 API 扩展点(目前我们拿不到完整 API 文档,这本身就是一个待验证的开放度)。

我们押剧本 A+B 混合(30-50% 概率):中间层降价在中小企业段位有限跟随,但主力战场拉向 enterprise 质量与合规。这把 voice agent 市场真切到两个价位带:一个 xAI 主导的 $0.05/min 标准化,一个中间层主导的 $0.10-$0.30/min 定制化

接下来看什么

可验证的跟踪点(都对应 xAI 在 7 月上半月必须公开 / 行动的事项):

  1. 官方文档与控制台 FAQ(7-3 至 7-7 高优先级):xAI 是否放出 Voice Agent Builder 的完整 API 文档、并发上限、PSTN/SIP 支持矩阵——目前 x.ai / console.x.ai 均 403,我们只能从推文与社区试用侧反推。
  2. 第三方测评与首日可用性:有多家 voice agent 评测媒体(Voicebot.ai、Speech Technology Magazine、LMArena 的语音子榜)是否在 7 月内放出对比测试——尤其中文、阿拉伯语、印度英语的可懂度与延迟。
  3. 企业合规认证时间表:HIPAA、PCI、SOC 2、EU AI Act 合规模块是否在 2026 Q3 拿到——这决定它能不能吃掉 enterprise 大单。
  4. ElevenLabs / Vapi / Retell 的反应:是「企业价 X 折促销」前置抢回客户,还是「我们做 GPT-5.5 + ElevenLabs Voice 组合」往上做差异化——这对 7-15 之前的市场动作很关键。
  5. BYOK 路径:Voice Agent Builder 后续是否允许客户用自家 LLM API key 替换 Grok——这决定它对 Anthropic/OpenAI 客户是中性入口,还是绑定到 Grok 锁定。
  6. 多语言档实测:中文 / 阿拉伯语 / 印地语的真实延迟与可懂度,这是大中华区 + 中东 + 南亚买家下决定前必过的硬门。
  7. xAI 自家生态协同:Grok Voice 是否在 X 平台内被推荐为「创作者 1v1 直播客服」、与 Tesla Optimus 远程客服业务是否打通——内部协同若形成内循环流量,意味着 $0.05 这价位可以被自家业务量补贴更长一段时间。

如果以上 7 项里前 3 项在 7 月上半月相继确认,我们可以把 Voice Agent Builder 升级为「voice agent 的新基础设施默认选项」;若有 1-2 项长时间不公开,尤其是 PSTN 中继费与 BYOK 路径,需要把它下调到「试用有性价比、生产部署需谨慎」的评级。

用一句话记这场发布

把「$0.05/分钟」当主语,Voice Agent Builder 是 2026-H2 voice agent 赛道的第一声定价炮——它把标准化段位(中小企业、客服、订位、外呼回访)拉到了「运营单兵即可上线」的财政门槛,反向把 ElevenLabs / Vapi / Retell 的中间层利润压缩到 enterprise 一段位。这条主线的真正价值,不在 xAI 今天挣了多少分钟费,而在它把 voice agent 从「工程团队建管线」彻底推到「运营/客服单兵配置」——这跟 Anthropic Claude Code 进企业 IT、Z.ai ZCode 进开发者桌面、BNB Agent Studio 进链上用户,是 2026 年中之后「模型/平台厂直签终端用户」的同一波商业范式迁移。

更多原文摘录(开发者社区对 xAI Voice Agent Builder 的二次扩散)

来自 @1aifanatic(Agentic AI Architect @AshlingPartners,3x UiPath MVP)的 7-1 自荐帖:

“@elonmusk @xai I Built an xAI Voice Agent in 5 Minutes, Only $0.05/Minute”

配 48s 视频,显示:打开 xAI 控制台 → 写一段「你是 Acme 餐厅的订位助理,会确认人数、时间并把订单推送到 webhook」→ 选 Grok Voice #3 男声 → 点「发布到电话」→ 真打了一通电话并验证 webhook 入参。该帖被 1aifanatic 自己插入 xAI 原帖回复链作为二次放大。

xAI 原帖评论区的开发者追问(节选,7-1 至 7-2):

  • “Does this support WebRTC and SIP trunking, or only Twilio? 中继费怎么收?”
  • “Can we BYOK with Anthropic Claude or is it Grok-only?”
  • “How does Grok Voice handle Chinese, Arabic, and Indian English — latency and intelligibility?”
  • “Is there a concurrency limit like ElevenLabs Business 40?”
  • “What about HIPAA / PCI for healthcare and fintech customers?”

(以上问题 24h 内 xAI 官号未统一回答,我们也拿不到 x.ai 上的 FAQ 更新——这是接下来一周最需要盯的口径。)