把三份几乎同周发布的数据并排放,才能读出单看任何一份都看不到的信号。OpenAI 在 6 月 25 日发布的内部用量报告显示,Codex 已占公司每周输出 token 的 99.8%——一年前这个数字还不足 10%;80.6% 的员工发起过等效人类超 30 分钟的请求,25.6% 超过 8 小时,非开发者用量个体涨了 137 倍、组织涨 189 倍,法务、财务、招聘在 4 月前后跨过「过半使用」拐点。Anthropic 同期的经济影响研究(首次做到小时级采样)给出心理侧的对照:近半受访者预期 12 个月内职责显著变化,不到 10% 自认会失业,但超三分之一估计初级同事失业概率高于 60%。而字节技术副总裁洪定坤分享的 TRAE 团队数据像一盆冷水:过去半年超 90% 的代码由 AI 生成,人均需求吞吐却只提升约 1.6 倍(60%)——「能跑」和「能上线」之间,还隔着很长一段软件工程。
发生了什么
OpenAI:一年内 Codex 从边缘工具变成默认工具
OpenAI 这篇《How agents are transforming work》配合同名经济研究论文《The Shift to Agentic AI: Evidence from Codex》发布,用自身内部用量做了一个近乎极限的「前沿采用」样本。论文把采样口径讲得很清楚:Codex 占总输出 token 的比例,OpenAI 内部从 2025 年 8 月的不足 10%,到 2026 年 6 月冲到 99.8%;同一口径下,组织用户为 63.3%、个人用户仅 16.5%——也就是说,「全员重度使用」目前还几乎是 OpenAI 一家公司的特例,外部远未到这个程度。
渗透不是均匀发生的。工程师先行,平均工程师在 2025 年 12 月 就把多数用量迁到 Codex,如今人均 99% 的输出 token 来自 Codex;法务、财务、招聘则滞后约四个月,在 2026 年 4 月 前后才跨过「Codex 成为主要 AI 工具」的拐点,但一旦跨过,转化更快,如今平均法务/招聘员工 Codex 占比也超过 85%。非开发者是增长最快的群体:自 2025 年 8 月以来,非开发者个人用户涨 137 倍、组织用户涨 189 倍、OpenAI 内部涨 12 倍(内部基数已高,故倍数小)。
更值得关注的是「任务时长」的迁移。到 2026 年 5 月,80.6% 的抽样个体用户发起过等效人类 30 分钟以上 的请求,70.2% 超过 1 小时,25.6% 超过 8 小时;近四分之一的 Codex 请求对应人类工时超过 1 小时。到 6 月,99 分位用户每天生成超过 60 小时 的 Codex agent 运行——靠并行多个 agent 堆出来的。OpenAI 据此判断:知识工作的单位正从「单次交互」迁移到「委托式、长周期任务」,agent 正取代 chatbot 成为工作的默认形态。
Anthropic:从业者已经为「职责剧变」定价
Anthropic 6 月 26 日发布的升级版经济指数,把使用数据采样提到小时级,并把约 9700 名 受访者的问卷回答与其真实 Claude 使用记录一一对应。在岗位前景上,它给出与 OpenAI 渗透曲线相互印证的心理侧证据:近半受访者预期未来 12 个月工作职责将显著变化;不到 10% 认为自己一年内会失业,但超三分之一估计初级同事失业概率高于 60%;86% 报告速度提升、57% 觉得自己技能更值钱。一个反直觉的发现是:越把任务大量委托给 Claude 的人,对自己的薪资和工作稳定性反而越乐观。
字节 TRAE:90% 生成率,1.6 倍吞吐
字节技术副总裁洪定坤的分享(经 X 用户 @Xudong07452910 转述,字节官方未单独发布全文)给出了效率侧的硬约束。TRAE 团队过去半年超 90% 的代码由 AI 生成,但人均需求吞吐率只提升约 60%(约 1.6 倍)。他做了一个对照实验:3 个主流编码模型 × 3 个主流 Agent 框架 = 9 种组合,每种跑 100 次——单看功能正确率大多超过 80%,但看 UI、交互、可靠性、性能、兼容性、可维护性这些「能不能交付」的指标,分数只有 40-60 分。引入「Harness」(上下文工程、架构约束、团队知识沉淀、代码规范、测试要求、历史经验、项目规则)后,可交付性提升到 80 分左右。结论一句话:「代码正在变便宜,但判断什么代码可以进入系统,会变得更贵。」
关键数据
OpenAI 内部 Codex 渗透曲线(输出 token 占比)
| 主体 | 2025 年 8 月 | 2026 年 6 月 |
|---|---|---|
| OpenAI 内部 | <10% | 99.8% |
| 组织用户 | — | 63.3% |
| 个人用户 | — | 16.5% |
| 28 天活跃用户中 Codex 占比(内部) | — | 97.9% |
各部门跨过「Codex 成主要工具」拐点
| 部门 | 拐点时间 | 当前输出 token Codex 占比 |
|---|---|---|
| 工程 | 2025 年 12 月 | 99% |
| 法务 | 约 2026 年 4 月 | >85% |
| 财务 | 约 2026 年 4 月 | >85% |
| 招聘 | 约 2026 年 4 月 | >85% |
长时运行任务渗透(个体用户,截至 2026 年 5 月)
| 等效人类工时阈值 | 发起过的用户占比 |
|---|---|
| >30 分钟 | 80.6% |
| >1 小时 | 70.2% |
| >8 小时 | 25.6% |
三方数据对账:渗透率 vs 效率转化 vs 心理预期
| 维度 | OpenAI(内部) | Anthropic(用户调研) | 字节 TRAE(单团队) |
|---|---|---|---|
| 渗透/生成率 | 99.8% 输出 token | 周末个人对话近 50% | >90% 代码 AI 生成 |
| 效率/影响 | 99 分位 60h/天 agent | 86% 报告速度提升 | 吞吐仅 1.6 倍 |
| 心理预期 | — | 近半预期 12 月职责剧变 | — |
| 瓶颈所在 | 长时运行可交付性 | 初级岗位练级场被吃 | 能跑 ≠ 能交付 |
字节 9 组合实验:功能正确率 vs 交付指标
| 指标 | 分数 |
|---|---|
| 功能正确率(3 模型 × 3 框架,每组 100 次) | 大多 >80% |
| 交付指标(UI/交互/可靠性/性能/兼容性/可维护性) | 40-60 分 |
| 引入 Harness 后可交付性 | 约 80 分 |
核查口径:OpenAI 的 99.8%、80.6%、25.6%、137x、189x 等数字来自 OpenAI 官方博客及同名研究论文原文,OpenAI 官方账号推文亦佐证「内部用量是 agent 工具普及后重塑工作的早期样本」,属同一研究的官方多载体披露;本次未取得独立第三方媒体对具体数字的逐项印证,引用时按官方口径呈现。Anthropic 数据与此前第三方转述一致,达两源以上。字节 TRAE 数据目前仅见 X 用户 @Xudong07452910 对洪定坤分享的转述,字节官方未单独发布全文,属单一来源,据此标注。
为何重要
把三份报告连起来,会看到一个被单点数据掩盖的完整结构:渗透率是滞后指标,效率转化才是真问题。 OpenAI 的 99.8% 证明「用」已经没有争议——一旦工具够强、够顺手,全员、全时长迁移几乎是必然;但字节的 1.6 倍提醒,「用」和「用好」之间隔着一整个软件工程体系。90% 的代码能被生成,但能稳定进入真实系统的只是其中一部分,中间被需求理解、架构约束、测试、安全、性能、兼容性和维护成本层层筛掉。
这个鸿沟恰恰解释了 Anthropic 那组剪刀差。为什么「不到 10% 担心自己」却「超三分之一 唱衰初级同事」?因为被 AI 顶替的,正是初级岗位那些标准化、有明确产物、可委托的任务——而字节的实验从另一侧给出了同一条规律:AI 在「把功能做出来」上已稳定过 80%,真正稀缺的是「判断什么代码能进系统」的工程决断。换句话说,练级场在被吃掉的同时,判断力反而变贵了。这两份报告从不同角度描述了同一个断裂:职业阶梯的最低一级被抽掉,而支撑 senior 价值的「什么能上线、什么不能」的认知,目前还只能靠人积累。
更值得注意的是,OpenAI 和字节不约而同指向了同一个解法。OpenAI 同周发布的另一篇《Codex-maxxing for long-running work》把 Codex 定位成「持久工作区」——保留上下文、拆解可验证步骤、维持跨工作流连续性、决定何时委托何时人类监督;字节讲的 Harness——上下文工程、架构约束、团队知识沉淀、项目规则——几乎是同一件事的另一面。当模型能力本身快速趋同(同期 Code Arena 数据显示 GLM-5.2 等已逼近前沿),竞争点正在上移:从「谁的模型更能写代码」转到「谁能为 AI 搭出更可靠的工程环境」。这大概率是接下来一年的主战场。
我们的判断:这三份报告放在一起,最有价值的不是任何单一数字,而是它们共同暴露的一个时差——渗透率跑在了效率转化前面。99.8% 的 token 占比说明「用」的决策已经做完,1.6 倍的吞吐说明「用出价值」才刚起步。把前者当成后者的证据,是当下最常见的误读:看到全员都在用 agent,就推断生产力已经起飞。但 OpenAI 自己的数据已经暗示了天花板——99 分位用户每天堆 60 小时 agent 运行,靠的是并行,而不是单线效率的等比例提升;而字节把这条曲线拉直给所有人看:生成率 90%,吞吐只有 1.6 倍,差额全漏在「能跑」到「能交付」那一段里。
这意味着,「智能体渗透工作」这个叙事要分两层读。第一层是真的、且不可逆:agent 已深度嵌入工作流,非技术部门跨过拐点,长时运行成为常态,从业者已为职责剧变做心理定价——这部分 OpenAI 和 Anthropic 互相印证,方向高度一致。第二层还远未兑现:渗透不等于产出,真正决定红利的不是模型多能写,而是工程环境能不能把 AI 的输出安全地接进系统。字节那句「代码变便宜,判断变贵」精准到了点子上——它同时解释了为什么初级岗位最先承压(他们做的正是变便宜的那部分),也解释了为什么 senior 反而更乐观(他们掌握的正是变贵的那部分判断力)。Anthropic 的「越委托越乐观」很可能就是这个机制的主观投影:有底气委托的人,本就是握有判断权的人。
但必须给三份报告都打折扣。OpenAI 是在卖 Codex 的公司用自家内部数据讲故事,有动机把渗透讲高、把图景讲乐观,且 99.8% 是「自我报告的内部用量」,外部组织(63.3%)和个人(16.5%)远未到此,把它当成行业普遍水位是危险的过度外推。Anthropic 的样本里计算机/数学类职业占 30%,而该类只占美国就业约 4%,是典型的「AI 原住民视角」,乐观读数会被系统性抬高。字节是单一团队、单一口径,1.6 倍受 TRAE 业务结构、需求粒度定义影响,未必能横向比较。三者各自都有偏差,但它们指向同一个方向——智能体已不可逆地深入工作流,而交付侧的工程化能力正成为新的稀缺品——这个共识比任何单一数字都更可信。
一个反面 caveat:也不要把这读成「AI 渗透没用」。86% 报告速度提升、非开发者用 agent 跨界做工程任务,这些放大效应是真实的。问题从来不是「渗透是好是坏」,而是「放大的收益归谁、被挤出的成本由谁承担、中间漏掉的交付环节谁来补」。这三份报告合在一起,第一次让这个分配问题有了数据的形状。
接下来看什么
- 交付侧指标而非渗透率:盯厂商是否会从「token 占比」披露升级到「可交付性/上线率」指标。字节把 Harness 后可交付性拉到 80 分,这条曲线能否稳定、能否复现到更大团队,是判断「效率转化」是否启动的硬信号。
- OpenAI 的效率转化链条:99.8% 渗透对应的人均产出提升是多少?OpenAI 若只披露 token 占比而不披露交付指标,说明渗透与产出之间仍有它不愿明说的落差。等它或第三方给出「渗透→产出」的完整链条。
- 初级岗位招聘的硬数据:盯应届/初级岗位招聘量与起薪,尤其计算机、行政、文案等高可委托职能。若 2026 下半年出现入门级结构性收缩,就是 Anthropic「三分之一唱衰初级同事」从预期变现实的第一个硬指标。
- 第三方对 OpenAI 内部数字的印证:目前 99.8% 等仅有 OpenAI 官方口径,缺独立媒体逐项核实。关注 The Information、Reuters 等是否会做交叉报道。
- 上下文工程/Harness 的产品化:OpenAI「持久工作区」与字节「Harness」指向同一解法,看谁能把上下文工程、架构约束、团队知识沉淀做成可复用的产品层——这大概率是模型趋同后的下一竞争点。
方法与扩展数据(展开)
OpenAI 论文方法口径
- 核心指标为「Codex 占总输出 token 比例」,区分 OpenAI 内部、组织用户、个人用户三层。
- 任务时长阈值(30 分钟/1 小时/8 小时)用 LLM-as-judge 结合 Codex 转录估算,论文脚注明确为「方向性而非精确值」,且基于 0.1% 用户随机抽样。
- 99 分位「60 小时/天」为多并行 agent 运行时间累计,非单线工时。
OpenAI 内部各部门 Codex 工作类型分布(输出 token 占比)
| 部门 | 工程/编码 | 数据分析 | 财务分析 | 知识工作 | 其他 |
|---|---|---|---|---|---|
| 工程 | 72% | 4% | 1% | 18% | 5% |
| 数据科学/研究 | 51% | 10% | 0% | 30% | 9% |
| 财务/商务运营 | 31% | 9% | 16% | 34% | 10% |
| 产品/营销/运营 | 25% | 3% | 7% | 51% | 15% |
注:业务职能员工超四分之一的 Codex 工作是工程/编码,说明 agent 正让非技术员工跨界做技术执行。
Anthropic 经济指数要点(同期)
- 小时级采样 + 约 9700 人问卷,问卷与真实使用打通;产物可分类对话占 93%,代码约 16%。
- Chat/Cowork 产出博客中位 13 轮来回,Claude Code 仅 1 个 prompt;54% 的 Claude Code 跑在 Opus 上。
- 样本结构:计算机/数学类职业占 30%,占美国就业约 4%,明显偏向 AI 重度用户。
字节 TRAE 实验细节
- 9 组合 = 3 主流编码模型 × 3 主流 Agent 框架,每组跑 100 次。
- 功能正确率大多 >80%;交付指标(UI/交互/可靠性/性能/兼容性/可维护性)40-60 分;引入 Harness 后约 80 分。
- Harness 要素:上下文工程、架构约束、团队知识沉淀、代码规范、测试要求、历史经验、项目规则(项目结构、不可动文件、历史包袱接口、必跑测试、团队不接受写法、已踩过的坑)。
来源:OpenAI:How agents are transforming work、OpenAI 论文:The Shift to Agentic AI、OpenAI:Codex-maxxing for long-running work、Anthropic 经济指数 6 月报告、字节 TRAE 分享(@Xudong07452910 转述)。