AI 日报
观点观察

智能体渗透工作三方对账:99.8% 渗透率与 1.6 倍吞吐之间的鸿沟

OpenAI 内部报告显示 Codex 占每周输出 token 从 2025 年 8 月不足 10% 升至 99.8%,80.6% 员工发起过等效人类超 30 分钟的请求、25.6% 超 8 小时,非开发者用量个体涨 137 倍、组织涨 189 倍,法务/财务/招聘 4 月跨过使用过半拐点;Anthropic 经济影响研究(逐小时采样)显示近半受访者预期 12 个月内职责显著变化,不到 10% 自认会失业但超三分之一估计初级同事失业概率高于 60%;字节洪定坤分享 TRAE 团队半年超 90% 代码由 AI 生成,人均吞吐却只提升约 1.6 倍,引入 Harness(上下文工程/架构约束/团队知识沉淀)后可交付性从 40-60 分升至约 80 分。三方数据拼出一个完整图景:智能体『用』已无争议,『用好』还差很远,瓶颈正从模型能力转移到工程化交付。

2026年6月27日 · 周六 · 深度调研

把三份几乎同周发布的数据并排放,才能读出单看任何一份都看不到的信号。OpenAI 在 6 月 25 日发布的内部用量报告显示,Codex 已占公司每周输出 token 的 99.8%——一年前这个数字还不足 10%;80.6% 的员工发起过等效人类超 30 分钟的请求,25.6% 超过 8 小时,非开发者用量个体涨了 137 倍、组织涨 189 倍,法务、财务、招聘在 4 月前后跨过「过半使用」拐点。Anthropic 同期的经济影响研究(首次做到小时级采样)给出心理侧的对照:近半受访者预期 12 个月内职责显著变化,不到 10% 自认会失业,但超三分之一估计初级同事失业概率高于 60%。而字节技术副总裁洪定坤分享的 TRAE 团队数据像一盆冷水:过去半年超 90% 的代码由 AI 生成,人均需求吞吐却只提升约 1.6 倍(60%)——「能跑」和「能上线」之间,还隔着很长一段软件工程。

发生了什么

OpenAI:一年内 Codex 从边缘工具变成默认工具

OpenAI 这篇《How agents are transforming work》配合同名经济研究论文《The Shift to Agentic AI: Evidence from Codex》发布,用自身内部用量做了一个近乎极限的「前沿采用」样本。论文把采样口径讲得很清楚:Codex 占总输出 token 的比例,OpenAI 内部从 2025 年 8 月的不足 10%,到 2026 年 6 月冲到 99.8%;同一口径下,组织用户为 63.3%、个人用户仅 16.5%——也就是说,「全员重度使用」目前还几乎是 OpenAI 一家公司的特例,外部远未到这个程度。

渗透不是均匀发生的。工程师先行,平均工程师在 2025 年 12 月 就把多数用量迁到 Codex,如今人均 99% 的输出 token 来自 Codex;法务、财务、招聘则滞后约四个月,在 2026 年 4 月 前后才跨过「Codex 成为主要 AI 工具」的拐点,但一旦跨过,转化更快,如今平均法务/招聘员工 Codex 占比也超过 85%。非开发者是增长最快的群体:自 2025 年 8 月以来,非开发者个人用户涨 137 倍、组织用户涨 189 倍、OpenAI 内部涨 12 倍(内部基数已高,故倍数小)。

更值得关注的是「任务时长」的迁移。到 2026 年 5 月,80.6% 的抽样个体用户发起过等效人类 30 分钟以上 的请求,70.2% 超过 1 小时,25.6% 超过 8 小时;近四分之一的 Codex 请求对应人类工时超过 1 小时。到 6 月,99 分位用户每天生成超过 60 小时 的 Codex agent 运行——靠并行多个 agent 堆出来的。OpenAI 据此判断:知识工作的单位正从「单次交互」迁移到「委托式、长周期任务」,agent 正取代 chatbot 成为工作的默认形态。

Anthropic:从业者已经为「职责剧变」定价

Anthropic 6 月 26 日发布的升级版经济指数,把使用数据采样提到小时级,并把约 9700 名 受访者的问卷回答与其真实 Claude 使用记录一一对应。在岗位前景上,它给出与 OpenAI 渗透曲线相互印证的心理侧证据:近半受访者预期未来 12 个月工作职责将显著变化;不到 10% 认为自己一年内会失业,但超三分之一估计初级同事失业概率高于 60%;86% 报告速度提升、57% 觉得自己技能更值钱。一个反直觉的发现是:越把任务大量委托给 Claude 的人,对自己的薪资和工作稳定性反而越乐观。

字节 TRAE:90% 生成率,1.6 倍吞吐

字节技术副总裁洪定坤的分享(经 X 用户 @Xudong07452910 转述,字节官方未单独发布全文)给出了效率侧的硬约束。TRAE 团队过去半年超 90% 的代码由 AI 生成,但人均需求吞吐率只提升约 60%(约 1.6 倍)。他做了一个对照实验:3 个主流编码模型 × 3 个主流 Agent 框架 = 9 种组合,每种跑 100 次——单看功能正确率大多超过 80%,但看 UI、交互、可靠性、性能、兼容性、可维护性这些「能不能交付」的指标,分数只有 40-60 分。引入「Harness」(上下文工程、架构约束、团队知识沉淀、代码规范、测试要求、历史经验、项目规则)后,可交付性提升到 80 分左右。结论一句话:「代码正在变便宜,但判断什么代码可以进入系统,会变得更贵。」

关键数据

OpenAI 内部 Codex 渗透曲线(输出 token 占比)

主体2025 年 8 月2026 年 6 月
OpenAI 内部<10%99.8%
组织用户63.3%
个人用户16.5%
28 天活跃用户中 Codex 占比(内部)97.9%

各部门跨过「Codex 成主要工具」拐点

部门拐点时间当前输出 token Codex 占比
工程2025 年 12 月99%
法务2026 年 4 月>85%
财务2026 年 4 月>85%
招聘2026 年 4 月>85%

长时运行任务渗透(个体用户,截至 2026 年 5 月)

等效人类工时阈值发起过的用户占比
>30 分钟80.6%
>1 小时70.2%
>8 小时25.6%

三方数据对账:渗透率 vs 效率转化 vs 心理预期

维度OpenAI(内部)Anthropic(用户调研)字节 TRAE(单团队)
渗透/生成率99.8% 输出 token周末个人对话近 50%>90% 代码 AI 生成
效率/影响99 分位 60h/天 agent86% 报告速度提升吞吐仅 1.6 倍
心理预期近半预期 12 月职责剧变
瓶颈所在长时运行可交付性初级岗位练级场被吃能跑 ≠ 能交付

字节 9 组合实验:功能正确率 vs 交付指标

指标分数
功能正确率(3 模型 × 3 框架,每组 100 次)大多 >80%
交付指标(UI/交互/可靠性/性能/兼容性/可维护性)40-60 分
引入 Harness 后可交付性约 80 分

核查口径:OpenAI 的 99.8%、80.6%、25.6%、137x、189x 等数字来自 OpenAI 官方博客及同名研究论文原文,OpenAI 官方账号推文亦佐证「内部用量是 agent 工具普及后重塑工作的早期样本」,属同一研究的官方多载体披露;本次未取得独立第三方媒体对具体数字的逐项印证,引用时按官方口径呈现。Anthropic 数据与此前第三方转述一致,达两源以上。字节 TRAE 数据目前仅见 X 用户 @Xudong07452910 对洪定坤分享的转述,字节官方未单独发布全文,属单一来源,据此标注。

为何重要

把三份报告连起来,会看到一个被单点数据掩盖的完整结构:渗透率是滞后指标,效率转化才是真问题。 OpenAI 的 99.8% 证明「用」已经没有争议——一旦工具够强、够顺手,全员、全时长迁移几乎是必然;但字节的 1.6 倍提醒,「用」和「用好」之间隔着一整个软件工程体系。90% 的代码能被生成,但能稳定进入真实系统的只是其中一部分,中间被需求理解、架构约束、测试、安全、性能、兼容性和维护成本层层筛掉。

这个鸿沟恰恰解释了 Anthropic 那组剪刀差。为什么「不到 10% 担心自己」却「超三分之一 唱衰初级同事」?因为被 AI 顶替的,正是初级岗位那些标准化、有明确产物、可委托的任务——而字节的实验从另一侧给出了同一条规律:AI 在「把功能做出来」上已稳定过 80%,真正稀缺的是「判断什么代码能进系统」的工程决断。换句话说,练级场在被吃掉的同时,判断力反而变贵了。这两份报告从不同角度描述了同一个断裂:职业阶梯的最低一级被抽掉,而支撑 senior 价值的「什么能上线、什么不能」的认知,目前还只能靠人积累。

更值得注意的是,OpenAI 和字节不约而同指向了同一个解法。OpenAI 同周发布的另一篇《Codex-maxxing for long-running work》把 Codex 定位成「持久工作区」——保留上下文、拆解可验证步骤、维持跨工作流连续性、决定何时委托何时人类监督;字节讲的 Harness——上下文工程、架构约束、团队知识沉淀、项目规则——几乎是同一件事的另一面。当模型能力本身快速趋同(同期 Code Arena 数据显示 GLM-5.2 等已逼近前沿),竞争点正在上移:从「谁的模型更能写代码」转到「谁能为 AI 搭出更可靠的工程环境」。这大概率是接下来一年的主战场。

日报观点

我们的判断:这三份报告放在一起,最有价值的不是任何单一数字,而是它们共同暴露的一个时差——渗透率跑在了效率转化前面。99.8% 的 token 占比说明「用」的决策已经做完,1.6 倍的吞吐说明「用出价值」才刚起步。把前者当成后者的证据,是当下最常见的误读:看到全员都在用 agent,就推断生产力已经起飞。但 OpenAI 自己的数据已经暗示了天花板——99 分位用户每天堆 60 小时 agent 运行,靠的是并行,而不是单线效率的等比例提升;而字节把这条曲线拉直给所有人看:生成率 90%,吞吐只有 1.6 倍,差额全漏在「能跑」到「能交付」那一段里。

这意味着,「智能体渗透工作」这个叙事要分两层读。第一层是真的、且不可逆:agent 已深度嵌入工作流,非技术部门跨过拐点,长时运行成为常态,从业者已为职责剧变做心理定价——这部分 OpenAI 和 Anthropic 互相印证,方向高度一致。第二层还远未兑现:渗透不等于产出,真正决定红利的不是模型多能写,而是工程环境能不能把 AI 的输出安全地接进系统。字节那句「代码变便宜,判断变贵」精准到了点子上——它同时解释了为什么初级岗位最先承压(他们做的正是变便宜的那部分),也解释了为什么 senior 反而更乐观(他们掌握的正是变贵的那部分判断力)。Anthropic 的「越委托越乐观」很可能就是这个机制的主观投影:有底气委托的人,本就是握有判断权的人。

但必须给三份报告都打折扣。OpenAI 是在卖 Codex 的公司用自家内部数据讲故事,有动机把渗透讲高、把图景讲乐观,且 99.8% 是「自我报告的内部用量」,外部组织(63.3%)和个人(16.5%)远未到此,把它当成行业普遍水位是危险的过度外推。Anthropic 的样本里计算机/数学类职业占 30%,而该类只占美国就业约 4%,是典型的「AI 原住民视角」,乐观读数会被系统性抬高。字节是单一团队、单一口径,1.6 倍受 TRAE 业务结构、需求粒度定义影响,未必能横向比较。三者各自都有偏差,但它们指向同一个方向——智能体已不可逆地深入工作流,而交付侧的工程化能力正成为新的稀缺品——这个共识比任何单一数字都更可信。

一个反面 caveat:也不要把这读成「AI 渗透没用」。86% 报告速度提升、非开发者用 agent 跨界做工程任务,这些放大效应是真实的。问题从来不是「渗透是好是坏」,而是「放大的收益归谁、被挤出的成本由谁承担、中间漏掉的交付环节谁来补」。这三份报告合在一起,第一次让这个分配问题有了数据的形状。

接下来看什么

方法与扩展数据(展开)

OpenAI 论文方法口径

  • 核心指标为「Codex 占总输出 token 比例」,区分 OpenAI 内部、组织用户、个人用户三层。
  • 任务时长阈值(30 分钟/1 小时/8 小时)用 LLM-as-judge 结合 Codex 转录估算,论文脚注明确为「方向性而非精确值」,且基于 0.1% 用户随机抽样
  • 99 分位「60 小时/天」为多并行 agent 运行时间累计,非单线工时。

OpenAI 内部各部门 Codex 工作类型分布(输出 token 占比)

部门工程/编码数据分析财务分析知识工作其他
工程72%4%1%18%5%
数据科学/研究51%10%0%30%9%
财务/商务运营31%9%16%34%10%
产品/营销/运营25%3%7%51%15%

注:业务职能员工超四分之一的 Codex 工作是工程/编码,说明 agent 正让非技术员工跨界做技术执行。

Anthropic 经济指数要点(同期)

  • 小时级采样 + 约 9700 人问卷,问卷与真实使用打通;产物可分类对话占 93%,代码约 16%。
  • Chat/Cowork 产出博客中位 13 轮来回,Claude Code 仅 1 个 prompt;54% 的 Claude Code 跑在 Opus 上。
  • 样本结构:计算机/数学类职业占 30%,占美国就业约 4%,明显偏向 AI 重度用户。

字节 TRAE 实验细节

  • 9 组合 = 3 主流编码模型 × 3 主流 Agent 框架,每组跑 100 次。
  • 功能正确率大多 >80%;交付指标(UI/交互/可靠性/性能/兼容性/可维护性)40-60 分;引入 Harness 后约 80 分。
  • Harness 要素:上下文工程、架构约束、团队知识沉淀、代码规范、测试要求、历史经验、项目规则(项目结构、不可动文件、历史包袱接口、必跑测试、团队不接受写法、已踩过的坑)。

来源:OpenAI:How agents are transforming workOpenAI 论文:The Shift to Agentic AIOpenAI:Codex-maxxing for long-running workAnthropic 经济指数 6 月报告字节 TRAE 分享(@Xudong07452910 转述)

一手来源