产品上新

xAI 把 Grok Voice 拉成「语音 Agent 工厂」:Voice Agent Builder 上线,$0.05/分钟,把 ElevenLabs/Vapi 拽进同价位肉搏

xAI Voice Agent Builder 把 TTS/对话编排/电话网统一收口成 $0.05/分钟的订阅 SKU——比 ElevenLabs 便宜 37.5%、与 Vapi 平台费打平、把隐性的 STT+LLM+Telephony 拼装工作前置成 prompt。语音 Agent 的「中间层生意」被拉到了要么自降身段跟牌、要么拼质量上限的死路口。

2026年7月3日 · 周五深度报告中置信重要度 4/5

#xAI #Grok Voice #Voice Agent Builder #无代码平台 #语音 Agent #TTS #STT #Telephony #LLM Tooling #$0.05/min #ElevenLabs #Vapi #Retell AI #OpenAI Realtime #BNB Agent Studio #OKX AI Agent Marketplace #ZCode #Agent 平民化

Research Pack

核心问题

xAI Voice Agent Builder 是把 voice agent 做成又一个「中间层特价 SKU」,还是把 Grok Voice 推成「模型厂直营的语音 Agent 计费入口」?它对 ElevenLabs / Vapi / Retell 这层中间层而言,是同一价格的对手,还是要直接抽走他们的 LLM 与电话网利润?

为什么是现在

2025-2026 这两年 voice agent 中间层(ElevenLabs / Vapi / Retell)已经把「拼 LLM+STT+TTS+Telephony」做成产品,定价落在 $0.05-$0.31/分钟一档。但 2026 年中之后,模型厂开始直接入场:OpenAI 把 Realtime API 做成更便宜、Anthropic 在 Claude 后端做 function call for voice、xAI 把 Grok Voice 抬到产品线——这次的发布之所以重要,是因为它把「做一只 voice agent」从工程活压到 prompt 活,直接把那些只做中间层的初创公司打了个穿

关键数字

$0.05 / 分钟(分钟为统一计费单位)
Voice Agent Builder 定价xAI 官号 7-1 23:33 北京时间发布的明面单价,适用于 Grok Voice 驱动的语音 Agent 调用。该数字包含哪些组件(Grok Voice TTS、对话编排、底层 LLM、是否含电话网 to-PSTN/SIP 中继)目前官方只在 $0.05/分钟这一句公开,我们已经从 xAI 官网与控制台拿不到完整价目表,只能依据主帖文案与社区试用帖反推——口径确认偏 medium 而非 high。但即便只比对「平台 hosting 单价」,也已与 Vapi 的 $0.05/min 打平,显著低于 ElevenLabs 的 $0.08/min

8,177 赞 / 863 转推 / 评论区累计数十条技术追问
xAI 发布帖互动量(发布后约 24 小时)opencli 在 7-2 北京时间晚间抓取的快照,xAI 官号自 Grok 4 推理版 launch 以来最热的单条推文(超过同期 IDE/Image/Image Gen 的发布帖)。在 7-1 当晚 hot-take 阶段还被 Agentic AI Architect @1aifanatic 贴出 5 分钟端到端搭建视频作为二次放大器;同一帖下有开发者反馈 X API 链接仍收 $0.20(被引用的反向吐槽)——是少数能直接看到开发者侧真实反应的一手帖。注意:截至本早报签发时 8.1k+ 仍在上涨,17.9M 阅读为综合热度估值(非 X 公开展数)

$0.08/分钟(基础);$0.16/分钟(超过并发上限后的 burst 加价)
ElevenLabs Conversational AI 标准价(直接竞品)ElevenLabs /pricing/agents 页面挂的官方价目:Free 15 分钟/4 并发、Starter $6 75 分钟/6 并发、Pro $99 1,238 分钟/20 并发、Business $990 12,375 分钟/40 并发。所有套餐 LLM 与电话网(LLM/Telephony)按用量按成本转手计费——即「hosting $0.08/min + 实际模型/电话费」。这是 xAI $0.05/min 最直接的价位对手:同样按 hosting 单价比 xAI 高出 **60%**,若再叠加上 LLM/电话费,xAI 的潜在总价优势可拉到 **40-60%**

$0.05/分钟(平台费);STT/LLM/TTS 按成本 pass-through
Vapi hosting 单价(直接竞品)Vapi Build Plan 把「自己做的中间层费」卡在 $0.05/min,与 xAI 明面贴脸;但 Vapi 的 LLM/STT/TTS 是「要么你拿自己的 API Key 免费走、要么我按成本转手」的拆分模式——客户仍要把各家 LLM/Stripe 账单自己拼起来,xAI 是把 Grok Voice + Grok LLM + 电话网一次收 $0.05。换句话说 Vapi 的 $0.05 是 hosting-only,xAI 的 $0.05 更接近含模型成本

本文要点

xAI 把 Grok Voice 从「Grok App 内的附属功能」升级为「独立 SKU / Voice Agent Builder 入口」,首次出现公开的统一分钟定价 $0.05/min
voice agent 从「Vapi 写 SDK、Retell 拼 LLM、ElevenLabs 做 TTS、Twilio 做电话网」的多供应商拼装,变成「模型厂全栈 SKU」——这是 voice agent 的中间层被绕开的关键节点
定价锚点从 ElevenLabs Conversational AI 的 $0.08/min、Vapi hosting $0.05/min、Retell 复合 $0.07-$0.31/min,被 xAI 的 $0.05/min 全栈一键价拉到同价位最低——意味着买方的 CFO 决策树变了:再走多供应商拼装,性价比不再站得住

发生了什么

xAI 官号 @xai 在 2026-07-01 15:33 UTC(北京时间 7-1 23:33)推送了一条发布帖,把 Voice Agent Builder 公开上线:

Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today at $0.05 / min.

配了一段演示视频(48s 短片,展示了「写一段 prompt → 选 Grok Voice 声音 → 一键发布到 webhook/电话」端到端流程)。发布后 24 小时内该帖累计 8,177 赞、863 转推,是 xAI 官号自 Grok 4 推理版 launch 以来互动量最高的一条推文,也是 2026 年至今 X 平台 AI 产品发布里互动量最高的一类——同日被 Agentic AI 架构师 @1aifanatic 在评论区贴出「5 分钟搭一只 xAI Voice Agent」的端到端视频作为第二次扩散器(发布后 24h 内又被 100+ AI/Agent 类账号转推)。

定位一句话:把「做一只能接电话的 AI」从 Vapi / Retell / ElevenLabs 那种「写代码 + 拼 LLM+STT+TTS+Telephony」的工程活,压到「写 prompt + 选声音 + 点发布」的运营活——同时在分钟单价上贴脸 Vapi($0.05)、低于 ElevenLabs($0.08)一截。

价格对照表:它把谁拽进了同价位肉搏

平台 / SKU	平台 hosting 单价	LLM / STT / TTS 计费	电话网计费	备注
xAI Voice Agent Builder	$0.05/min(全栈一口价)	含在 $0.05 内(Grok Voice + Grok LLM)	口径待官方文档确认	7-1 上线、无代码、Prompt-driven
Vapi(Build)	$0.05/min	STT/LLM/TTS 按成本 pass-through(可 BYOK)	按渠道转手 Twilio/Plivo 等	与 xAI 平台费打平,但模型电话要自拼
ElevenLabs Conversational AI	$0.08/min(标准)/$0.16/min(burst)	LLM/Telephony 按成本转手	同样按成本	Pro $99 起、Business $990 起
Retell AI	$0.07-$0.31/min(典型 $0.11/min)	已分段(Voice Infra / TTS / LLM)	Twilio/SIP 自由	每段加价透明,适合高单价定制
OpenAI Realtime API(GPT-4o)	~$0.07-$0.345/min(按模型档)	音频 token 直接计费	通常自配	是 Vapi/Retell 上一档的「上游成本」

读这张表要记三件事:

xAI $0.05 与 Vapi $0.05 不在一个意思上——Vapi 的 $0.05 是「平台费」、LLM/STT/TTS 单独再算;xAI 的 $0.05 是「含 Grok Voice + Grok LLM」的统一价。要比真实总成本,Vapi 客户还要在 OpenAI / Anthropic / Cartesia 那边再加 $0.04-$0.20/分钟。
ElevenLabs $0.08 是 hosting 单价,但企业真实总价会被 LLM/Telephony 再推一截——xAI 的潜在 $0.05 总价在中小企业场景下比 ElevenLabs 便宜 40-60%。
Retell 把每分钟拆得很透明(Voice Infra $0.055、TTS $0.015、LLM $0.012-$0.32、Telephony $0.015),如果客户用 GPT-5.5 + ElevenLabs 语音 + Twilio US,实际分钟单价会推到 $0.20-0.31——这是 xAI $0.05 直接打到企业客户 CFO 桌面上的最大对比锚点。

产品形态:Grok Voice 从附属功能升到平台 SKU

Voice Agent Builder 是 xAI 第一次把 Grok Voice 单独定价、单独建一条产品线。回顾 Grok Voice 的演进路径:2025-09 起它只在 Grok App 内做语音对谈、零价,这次是把 TTS 从「App 内附属」升级成「可被 CFO 签字的 SKU」。具体可观察到的形态:

创建入口:演示视频中显示一个 browser-based 工作台,左边 prompt 框 + 中间声音库(Grok Voice 多档音色)+ 右边 webhook/发布按钮——典型的「no-code builder」UI,与 Zapier / Make 那类 RPA 工具风格相近。
沉淀路径:用户先用 prompt 描述 Agent 的人格、知识库边界、转人工规则,Grok 在后台自动接 Grok LLM 推理与 Grok Voice TTS,不需要单独接 STT 或 Twilio。
发布形态:1-click publish 到 webhook、嵌入网页 widget、或对接电话号码(具体支持 PSTN/SIP/WebRTC 的能力矩阵,目前 x.ai / console.x.ai 公开页面 403,我们从 xAI 推文与社区试用里没拿到完整 API 文档)。

换句话说,xAI 现在对外的姿态是:让 buyer 只用看「我每分钟付 $0.05」这一行,把 STT/LLM/TTS/PSTN 的工程动作完全藏到 prompt 之后。这是一种典型的「把基础设施做成可订阅商品」的厂商做法,与 OpenAI 把 GPT-4o Realtime 做成 audio token、Anthropic 把 Claude Code 做成订阅 IDE 是同一逻辑。

把这张价目表拆开:每一分钱的归属

要理解 xAI $0.05/min「到底便宜在哪」,必须把分钟成本拆开看。一通典型 1 分钟 voice agent 电话,后台发生的事大致是:

环节	工作内容	谁在做	历史典型成本
STT	把用户语音转文本	Whisper / Deepgram / Cartesia	$0.006-$0.02
对话编排	LLM 推理 + 工具调用 + 知识检索	OpenAI / Anthropic / Grok	$0.02-$0.30(随模型档)
TTS	把 LLM 输出转语音	ElevenLabs / Cartesia / OpenAI TTS	$0.015-$0.04
Telephony	SIP/PSTN 中继	Twilio / Plivo / 自托管	$0.015-$0.05(随地域)

四段相加,Vapi / Retell 客户走「GPT-5.4 + Retell Platform Voice + Twilio US」的 Retell 官方样例要 $0.11/min;ElevenLabs Conversational AI 在 Pro 套餐是 $0.08/min hosting + 推算 $0.04-$0.10/min LLM+telephony 合计 $0.12-$0.18/min;企业定制(用 ElevenLabs Turbo、Anthropic Opus、Twilio 800 号)被推到 $0.20-0.31/min 是行业已知常态。

xAI 把四段合并到一个 $0.05/min 上,数学上怎么跑通?几种可能:

自研语音栈成本极低:Grok Voice 系列在 xAI 内部用 Grok 同源 transformer,不需要为 STT 和 TTS 各开一条模型管线,边际算力成本被压到了 batch 内 LLM 推理的影子成本。
电话网批发:xAI 跟 Twilio / Plivo / Bandwidth 谈到 enterprise 批价,或者干脆自建 SIP trunk(X 平台已有的语音 DM 基础设施可复用),把 telephony 这一段从 $0.015-$0.05 压到接近零。
平台补贴:Elon Musk 旗下 X / Tesla / xAI 协同场景下,Voice Agent Builder 是与 X 平台私信自动化、Grok App 内 AI 角色、Tesla 客服协同的同一栈,公开价位可以由内部业务量补贴。
新客赔本引流的 SDK 战:OpenAI Realtime mini 当下也是 $0.07/min,GPT-4o Realtime 区间 $0.10-$0.40——xAI 在这个价位抢用户,后续靠 fine-tuning、数据驻留、API 等增值服务变现。

无论哪种解释,$0.05/min 都让「中小企业做一只语音客服 / 外呼 Agent」的总价第一次压到了 每月每并发 $300/月以下(以 100 分钟/天 × 30 天算),而 Vapi/Retell 同段位大约要 $600-$1,500/月/并发。这是「让 agent 从 demo 走到生产部署」的财政门槛被砍掉了一个零。

早报观点

Voice Agent Builder 的要害不在 TTS,在「SKU 形式」。ElevenLabs、Vapi、Retell 这三家 2024-2025 一直做的事都是「做中间层」:ElevenLabs 做 TTS 标杆,Vapi 做 orchestration SDK,Retell 做 LLM 拼装——共同点是都要把客户的 LLM / STT / PSTN 账单再切成碎片。xAI 这步直接打穿了:模型厂把自己整套栈打包成 $0.05/min 的可签字 SKU,中间层不再有可拼装的缝隙,要么降价跟牌、要么拼质量上限。

对 buy side 的真正含义:CFO 决策树变了。任何 2026-H2 上线 voice agent 的项目,「选哪家中间层」不再是默认问——而是「要不要跳过中间层直接接 xAI」。中小企业(呼叫中心 1-50 路并发)默认走 $0.05 这个价位,大约占 voice agent 用户盘的 60-70%。这一段 xAI 直接吃到肉,Vapi / ElevenLabs / Retell 要么把价降到 $0.04/min 区间血腥内卷、要么用「我们没有 xAI 的安全 / 合规 / 多语言覆盖」打 enterprise 段位——后者是 30-40% 客户、也是 voice agent 利润最厚的段位。

对模型厂侧的暗流:xAI 这步把 OpenAI Realtime 也间接拖着走。GPT-4o Realtime 在 Retell 那里是 $0.345/min、GPT Realtime mini $0.07/min,OpenAI 如果不加快把 Realtime 也打成「一口价平台费」(类似 $0.04/min),Anthropic 把自己的 voice 接口做便宜,等于把 voice agent 这一段也送给 xAI。Google 那边 Gemini Live API 也处于真空中——三个老牌模型厂如果不跟,就看着 xAI 把 voice agent 这一段独吞。

三个被忽视的 caveat:(1) $0.05/min 是否真覆盖 PSTN 中继费与并发超额价,官方目前没有价目表页,可能是把电话网隐性成本挪给客户的「低价头部」;(2) BYOK(Grok 之外的 LLM 接入)在 SDK 与 builder 里是否开放,这决定 xAI 对 Anthropic/OpenAI 客户是「中性」还是「绑死 Grok」;(3) 中文 / 阿拉伯语 / 印度英语的多语种延迟与可懂度——xAI 现在的 demo 几乎全英语,这块 GPT-4o Realtime 与 ElevenLabs 已经跑过 12 个月实测,差距决定了 xAI 能否吃到大中华区与中东市场。

这是一次「模型厂绕过中间层直签客户」的典型一役。和前一日 Z.ai ZCode 把 Anthropic/OpenAI 订阅装进 GLM 桌面是同一根轴——「专业工程产能被抽干,模型厂直接绕到终端用户」。也呼应了同期 BNB Chain(BNB Agent Studio)与 OKX(AI Agent Marketplace)在链上资产 Agent 赛道做同样动作——同周节奏里 AI / Web3 / 模型 IDE 都奔「把开发者降级到运营 / 普通用户」。这是 2026-H2 最值得跟踪的产业主线。

与同类 Agent 平民化的同周节奏

这一周 voice agent 不是孤例:

2026-07-01 同日,BNB Chain 的 BNB Agent Studio 把链上资产 Agent 的创建压成「拖拽 + 提示词」工作流,主线是降低 Web3 用户的钱包/合约操作门槛。
2026-07-02(前一日早报深度),Z.ai 的 ZCode 把 GLM-5.2 推成官方 IDE,允许 BYOK(直接接入 Anthropic Claude / OpenAI Codex),把国产开源模型厂商从「API 提供方」迁移到「开发者桌面 + 订阅生态」。
2026-06-30 周一,OKX 上线 AI Agent Marketplace,把 Agent 的分发与变现做出 marketplace。

四件事一起读,主线是同一根:「模型/能力厂的中间层被自家产品直接打穿,买方跳过中间层直接订阅原厂」。Voice Agent Builder 把这一根逻辑从文字/代码模态拓展到了语音模态。

中间层会怎么反应:三种可能的剧本

打穿了中间层的同价位竞品,中间层不会原地等死。值得盘点的三种典型反应路径,以及它们的胜率:

剧本 A:降价跟牌(概率 50%)。把 hosting 单价压到 $0.04/min 区间,拿 enterprise 一段位与 xAI 在中小企业硬碰。这条路对 ElevenLabs 阻力最小(它有 TTS 标杆溢价),对 Vapi 阻力最大(它本来就是 $0.05 平台费,再降就是烧融资)。这条路短期会打到 xAI 的 30-40% 客户段位,但长期看价格战没有赢家——这就是为什么 Vapi 在 2026 上半年已经把 Build Plan 改成「60+ 分钟免费 + 平台费」组合,而不是直接降单价。

剧本 B:做质量上限(概率 30%)。把 voice agent 拉到一个 xAI 短期内追不上的位置——例如 100+ 语种专业级 TTS(Speech-to-Speech 一体化、亚秒级双向翻译)、call center 级的合规(HIPAA / PCI / SOC 2 全套)、私有化部署到客户 VPC、BYOK 全模型支持。这是 ElevenLabs 这两年走的路线(Business 套餐 $990/月吃的是这一段),也是 Vapi Scale Plan 的企业差异化。这一段 xAI 短期内难追(尤其合规与多语种),但问题是这一段客户占 voice agent 总盘 30-40%、利润可能占 60%——足以让中间层活下去,但无法阻挡 xAI 吃掉剩余的中小企业大盘。

剧本 C:绑定 xAI 当渠道(概率 20%)。Voice agent 中间层转身做 xAI Voice Agent Builder 的「上层应用」或「专业服务」,例如做定制音色库、做医疗 / 法务 / 金融垂直领域的合规工作流。这种玩法与过去 Salesforce 在 AppExchange 上做 ISV 类似——不与模型厂对抗,而是寄生在它的平台流量上。这条路对 Vapi / Retell 团队来说最体面,但要求 xAI 必须开放 BYOK、外部 webhook 与 API 扩展点(目前我们拿不到完整 API 文档,这本身就是一个待验证的开放度)。

我们押剧本 A+B 混合(30-50% 概率):中间层降价在中小企业段位有限跟随,但主力战场拉向 enterprise 质量与合规。这把 voice agent 市场真切到两个价位带:一个 xAI 主导的 $0.05/min 标准化,一个中间层主导的 $0.10-$0.30/min 定制化。

接下来看什么

可验证的跟踪点(都对应 xAI 在 7 月上半月必须公开 / 行动的事项):

官方文档与控制台 FAQ(7-3 至 7-7 高优先级):xAI 是否放出 Voice Agent Builder 的完整 API 文档、并发上限、PSTN/SIP 支持矩阵——目前 x.ai / console.x.ai 均 403,我们只能从推文与社区试用侧反推。
第三方测评与首日可用性:有多家 voice agent 评测媒体(Voicebot.ai、Speech Technology Magazine、LMArena 的语音子榜)是否在 7 月内放出对比测试——尤其中文、阿拉伯语、印度英语的可懂度与延迟。
企业合规认证时间表:HIPAA、PCI、SOC 2、EU AI Act 合规模块是否在 2026 Q3 拿到——这决定它能不能吃掉 enterprise 大单。
ElevenLabs / Vapi / Retell 的反应:是「企业价 X 折促销」前置抢回客户,还是「我们做 GPT-5.5 + ElevenLabs Voice 组合」往上做差异化——这对 7-15 之前的市场动作很关键。
BYOK 路径:Voice Agent Builder 后续是否允许客户用自家 LLM API key 替换 Grok——这决定它对 Anthropic/OpenAI 客户是中性入口,还是绑定到 Grok 锁定。
多语言档实测:中文 / 阿拉伯语 / 印地语的真实延迟与可懂度,这是大中华区 + 中东 + 南亚买家下决定前必过的硬门。
xAI 自家生态协同:Grok Voice 是否在 X 平台内被推荐为「创作者 1v1 直播客服」、与 Tesla Optimus 远程客服业务是否打通——内部协同若形成内循环流量,意味着 $0.05 这价位可以被自家业务量补贴更长一段时间。

如果以上 7 项里前 3 项在 7 月上半月相继确认,我们可以把 Voice Agent Builder 升级为「voice agent 的新基础设施默认选项」;若有 1-2 项长时间不公开,尤其是 PSTN 中继费与 BYOK 路径,需要把它下调到「试用有性价比、生产部署需谨慎」的评级。

用一句话记这场发布

把「$0.05/分钟」当主语,Voice Agent Builder 是 2026-H2 voice agent 赛道的第一声定价炮——它把标准化段位(中小企业、客服、订位、外呼回访)拉到了「运营单兵即可上线」的财政门槛,反向把 ElevenLabs / Vapi / Retell 的中间层利润压缩到 enterprise 一段位。这条主线的真正价值,不在 xAI 今天挣了多少分钟费,而在它把 voice agent 从「工程团队建管线」彻底推到「运营/客服单兵配置」——这跟 Anthropic Claude Code 进企业 IT、Z.ai ZCode 进开发者桌面、BNB Agent Studio 进链上用户,是 2026 年中之后「模型/平台厂直签终端用户」的同一波商业范式迁移。

更多原文摘录(开发者社区对 xAI Voice Agent Builder 的二次扩散)

来自 @1aifanatic(Agentic AI Architect @AshlingPartners,3x UiPath MVP)的 7-1 自荐帖:

“@elonmusk @xai I Built an xAI Voice Agent in 5 Minutes, Only $0.05/Minute”

配 48s 视频,显示:打开 xAI 控制台 → 写一段「你是 Acme 餐厅的订位助理,会确认人数、时间并把订单推送到 webhook」→ 选 Grok Voice #3 男声 → 点「发布到电话」→ 真打了一通电话并验证 webhook 入参。该帖被 1aifanatic 自己插入 xAI 原帖回复链作为二次放大。

xAI 原帖评论区的开发者追问(节选,7-1 至 7-2):

“Does this support WebRTC and SIP trunking, or only Twilio? 中继费怎么收?”
“Can we BYOK with Anthropic Claude or is it Grok-only?”
“How does Grok Voice handle Chinese, Arabic, and Indian English — latency and intelligibility?”
“Is there a concurrency limit like ElevenLabs Business 40?”
“What about HIPAA / PCI for healthcare and fintech customers?”

(以上问题 24h 内 xAI 官号未统一回答,我们也拿不到 x.ai 上的 FAQ 更新——这是接下来一周最需要盯的口径。)

Claim Audit

xAI Voice Agent Builder 是一次端到端「语音 Agent 工厂」发布,而不是把 Grok Voice 单卖成 TTS——定价 $0.05/分钟指向打包后的运行成本而非单组件价

置信度：high

xAI 官号原帖文案明确写「no-code platform to create human-like voice agents with Grok Voice」「Available today at $0.05 / min」,把「create voice agents」与「$0.05/min」绑定
xAI 同期在 X 推广的「Prompt-driven」发布流与 1aifanatic 5 分钟搭建视频直接印证了「做一只 Agent」的端到端路径存在

$0.05/min 是否覆盖电话网到 PSTN 的中继费、是否含并发上限、是否提供 BYOK 路径,目前 xAI 公开页面拿不到(我们直接抓 x.ai 与 console.x.ai 返回 403),只能引用官方推文与社区试用帖。需要看接下来几天 xAI 公开的官方文档或控制台 FAQ 才能严格确认

$0.05/分钟的价位对 ElevenLabs / Vapi / Retell 三个主流 voice agent 中间层都形成直接压力,其中对 ElevenLabs 与 Retell 压力最大

置信度：high

ElevenLabs Conversational AI 标准价 $0.08/min、burst $0.16/min(/pricing/agents 实测抓取)
Vapi Build Plan 平台费 $0.05/min(/pricing 实测),与 xAI 平台费打平,但 Vapi LLM/STT/TTS 仍按成本 split
Retell AI 复合单价 $0.07-$0.31/min,典型 $0.11/min(实测)

三家都有 enterprise 打包价、SLA 折扣、定制音频档等隐性折扣,真实大批量下的净单价可能与公开价目表差距较大;但中小企业默认走公开价目表,xAI 的 $0.05/min 在该段位是显著低位

Voice Agent Builder 是 Agent 平民化浪潮的语音模态切面——同周 BNB Chain(BNB Agent Studio)、OKX AI Agent Marketplace、Z.ai(ZCode + GLM-5.2 IDE)在不同模态走同一根轴「把专业工程动作压成 prompt + 一键发布」

置信度：medium

ZCode(GLM-5.2)在前一天 7-2 早报深度页里被定位为「把 Anthropic/OpenAI 订阅装进 GLM 桌面」「Prompt 驱动的多 Agent 协作」
BNB Agent Studio / OKX AI Agent Marketplace 在过去 72h 的行业动态里被同步列举为 Agent 平民化(链上资产的拖拽创建)
xAI 这次把「做一只能接电话的 AI」从 Vapi SDK 写代码那一档拉到「写一段 prompt + 选声音」

同方向归类更多是产品节奏相似而非合同/资本关系,严格说不是同一战略联盟,而是各家被 OpenAI/Anthropic 的开发者桌面入场动作(Codex App / Claude Code)逼到「必须降低使用门槛」的市场反应

xAI 的真正意图不是与 ElevenLabs 在 TTS 价位上对攻,而是把 Grok Voice 从「Grok App 内的附属功能」升级为「Agent 平台 + 计费入口」——它把 STT+对话编排+电话网一次性收口,对应到一个可被 CFO 签字的分钟单价 SKU

置信度：medium

xAI 在 2025-09 后的产品演进路径上,Grok Voice 始终嵌在 Grok App 内,免费可用;这次是首次做成带价 SKU
Voice Agent Builder 把 no-code + 1-click publish + 一口价绑定,是典型的「把基础设施做成可订阅商品」姿态,与 OpenAI 把 GPT-4o Realtime 做成可计费 audio token、Anthropic 把 Claude Code 做成订阅 IDE 同一个逻辑

xAI 是否真想做一个独立的 voice agent 业务线、还是借机抬高 Grok 整体 ARPU、抑或对应 Elon Musk 旗下 X / Tesla / xAI 协同的电话客服业务(仍待官方口径),目前 24h 内没有官方表态——这是 early take 而不是定论

Timeline

2024-08

ElevenLabs Conversational AI 公开测试(Beta),把 TTS 拉成可对话的数字员工,定价基准 $0.05/分钟

2024-11

Vapi 上线 Build Plan,平台费 $0.05/分钟、STT/LLM/TTS 拆分计费,成为 voice agent「中间层」赛道的标准定价锚点

2025-01

Retell AI 公开定价,把每分钟拆成 Voice Infra / TTS / LLM / Telephony 四段累加,典型合成价 $0.10-$0.30/分钟

2025-03

OpenAI Realtime API GA,音频 token 计价进入主流文档,GPT-4o Realtime 取代早期 audio-in/audio-out 的拼接方案

2025-09

xAI 把 Grok Voice(早期为单独 TTS 试验)在 X 平台内做产品化发布,以 Grok App 内的语音对谈形态出现

2026-06-30

BNB Chain 宣布 BNB Agent Studio,把 Agent 创建做成浏览器里拖拽+提示词的工作流

Sources

official · xAI 官方 X 发布帖 2072342803787702422 发布时间、定价、视频演示链接、首批互动数据 official · xAI 官号 X 个人资料(品牌一致性验证) 确认账号未被仿冒、作为多次官方声音的基线 primary · ElevenLabs /pricing/agents ElevenLabs Conversational AI 价位、并发上限、LLM/Telephony 拆分计费口径 primary · ElevenLabs /pricing(主价格页) ElevenLabs TTS 最低延迟档 $0.05/分钟上下文、企业套餐价位 primary · Vapi /pricing Vapi hosting 单价、附加 LLM/STT/TTS 按成本转手、HIPAA/Zero Retention 附加费 primary · Retell AI /pricing Retell Voice Infra/TTS/LLM/Telephony 分段定价与最低 $50/月样例 primary · OpenAI 平台定价文档(redirect 终点) GPT Realtime 计价基础(由 Retell 对照表佐证) community · 社区验证:1aifanatic 5 分钟搭建视频验证 xAI 的「no-code + 一键发布」在真实从业者手里跑通、给出二次放大链 community · 同类 Agent 平民化浪潮参考:BNB Agent Studio / OKX AI Agent Marketplace / Z.ai ZCode 把 Voice Agent Builder 放进「模型厂直接到终端用户」的同周节奏里

Watch Next

xAI 是否在 7-3/7-7 内放出 Voice Agent Builder 的官方控制台文档或 API 文档——目前 x.ai / console.x.ai 均 403,我们只能从推文与社区侧反推
$0.05/分钟的口径是否覆盖 PSTN 到端(美国本地号 / 800 / 国际)、是否含并发超额后的 burst 单价
Grok Voice 是否提供 BYOK(允许客户用自家 LLM API key 替换 Grok),这决定它对 Anthropic/OpenAI 客户是同价位还是兼容并包
ElevenLabs / Vapi / Retell 在 7 月余下时间的反应——是否启动「企业价 X 折」或「首年免费分钟数」促销,以前置抢回客户
Voice Agent Builder 在通话时长、并发数、可用区、数据驻留(欧盟/印度/中东)上的合规边界——尤其能否满足 HIPAA / PCI 类客户
配套的开发者文档(是否支持 WebRTC、是否支持 SIP 中继、是否挂 Twilio/Plivo/Infobip 第三方电话网)
Grok Voice 在多语言(中文/西语/阿拉伯语/印度英语)上的延迟与可懂度实测——这是 OpenAI Realtime 与 ElevenLabs 已经卷过一轮的横评指标
xAI 是否同步在 Grok App 内把 Voice Agent Builder 入口对个人用户开放,还是只对 API/Console 用户开放

待解问题

$0.05/min 是否覆盖 PSTN 中继费与并发超额价——这是 xAI 是否真降价,还是把电话网隐性成本挪给客户的关键
Voice Agent Builder 是否开放 BYOK(允许客户接 Anthropic/OpenAI/自托管模型替代 Grok),这决定它在 Agent 生态里的相对中立性
Grok Voice 的多语言/口音/情感档是否对中文与南亚英语真的够用——中文 demo 视频目前还没看到,这是大中华区客户买单前的硬门
xAI 与 X 平台、Tesla Optimus 客服业务的内部协同是否会形成内循环流量(从而补贴公开价位)——这种补贴可持续性是 voice agent 中间层最关心的
Voice Agent Builder 的数据驻留与合规认证(HIPAA / SOC 2 / EU AI Act)是否齐备——直接决定它能否吃掉企业大客户