观点观察

Berman 双 $200 订阅工作流:Fable 5 规划 + GPT-5.5 执行,CLAUDE.md 当胶水

Fable 5 想、GPT-5.5 写、CLAUDE.md 管——Berman 把单 agent 工作流拆成三角色,把月费推到 $400。

2026年7月5日 · 周日 深度报告 中置信 重要度 4/5

本文要点

  • 工作流从单模型单订阅,转向 Fable 规划、GPT 执行的多模型分工。
  • Plan Mode 从同一模型内的只读模式,扩展成跨厂商模型隔离。
  • CLAUDE.md 从 Claude 生态配置,变成可迁移的治理文件。

阅读辅助

先看数字、证据和来源,再读正文。

$400、月 Berman 双订阅月成本
$200、月 Fable、GPT-5.5 单订阅月费
5 条 Claim Audit

Berman 的工作流不是「哪个模型更强」的对比,而是把 agent 的三个角色(Planning、Execution、Governance)拆给三个独立系统:Fable 5 想、GPT-5.5 写、CLAUDE.md 管。

6 个时间点

2025-Q4 · Anthropic 推出 Claude Code 最佳实践文档,明确「Explore → Plan → Implement → Commit」四阶段范式;Plan Mode 区分探索与执行

7 个来源 3 个非 X 来源

双 $200 订阅:不是「哪个模型更强」,是「三个角色三个系统」

Matthew Berman 在 2026-07-04 公开了每月 $400 固定订阅的双模型工作流:Fable 5 负责 Planning(规划)、GPT-5.5 负责 Execution(执行)、theo 推广的 CLAUDE.md 框架承担治理层(governance)(据 Berman 推文 2073475032274338119 描述,原文未直接抓取)。theo 在同一天自陈的另一条相关推文(2072482460122964067,原文未直接抓取)给出了该工作流最关键的实证锚点:搭这套工作流之前,约 50% 的 agent 驱动 PR 会被 reviewer 关掉;搭完之后,当天零 PR 被关闭(据 theo 推文自陈)。

把这套工作流放回当下 AI agent 工具链的语境里读,真正值得记住的不是 Fable 5 与 GPT-5.5 各自的 benchmark 数字,而是 agent 工作流从「单模型单订阅」走向「多模型多订阅 + 跨厂商治理胶水」的架构迁移。Berman 不是在做模型对比,他是在做模型编排(model orchestration)——把 agent 的三个核心角色拆给三个独立系统:想(Fable 5)、写(GPT-5.5)、管(CLAUDE.md)。这与 Anthropic 官方 Claude Code 最佳实践文档中「Explore → Plan → Implement → Commit」四阶段范式是同一种「分离研究与执行」思想的两层缩放:垂直(同一模型内 Plan Mode 是只读不写)→ 水平(跨厂商模型分工)。

「Plan 走 Fable、Execute 走 GPT」:Anthropic Plan Mode 的跨厂商升级

Anthropic 官方 Claude Code 文档明确把工作流定义为四阶段:Explore(plan mode)→ Plan(plan mode)→ Implement(default mode)→ Commit(default mode)。Plan Mode 的核心设计是「Claude reads files and answers questions without making changes」——只读、不写、产出计划但不动文件。这种「Plan/Implement 隔离」是 Claude Code 把「研究规划」与「实施执行」在同一模型内分开的能力。

Berman 的工作流把这一思想跨厂商放大:Plan 步骤独立交给 Fable 5,Implement 步骤独立交给 GPT-5.5。这与 Anthropic Sonnet 5 在 2026-06-30 发布的官方定位形成有意思的对照——Anthropic 把 Sonnet 5 称为「最具 agentic 能力的 Sonnet 模型」,标准定价 Input $3 / MTok、Output $15 / MTok(限时优惠至 2026-08-31 为 $2 / $10);Opus 4.8 对比为 $5 / $25——Sonnet 5 比 Opus 4.8 输入便宜 40%、输出便宜 40%(Anthropic 官方)。这一价格梯度,使得「Plan 步骤走更贵模型、Execute 步骤走便宜模型」成为可被理性选择的 TCO 优化方案;反过来,「Plan 步骤走别家模型」则是更激进的「用他山之石攻玉」路径。

但 Berman 没有把 Plan 步骤放在 Sonnet 5 / Opus 4.8,而是放在 Fable 5——这个选择意味着 Fable 5 的 Planning 能力(长上下文、复杂任务分解、风险预判)在 Berman 的判断里比 Sonnet 5 更有优势。社区侧的旁证是,Fable 5 在 2026-07-04 重返 Arena 评测,@petergostev 用 60+ 个 3D 生成测试(现代城市、艺术、世界奇观等)跑一遍,评价「可能是我们见过最令人印象深刻的模型」(arena 推文 2073484893334691855),且 Fable 5 已上线 Battle Mode 与 Agent Mode(arena 推文 2073458469299245393)。Agent Mode 的存在是 Fable 5 适合承担 Planning 角色的能力证据——它能跑 agent harness,意味着它能在 Berman 的工作流里作为「只读不写」的 Plan 节点存在。

把 Anthropic 文档原文与 Berman 工作流并置读,可以看出「Plan Mode」这个概念正在经历一次范畴迁移:

维度Anthropic 原生 Plan ModeBerman 双模型工作流
隔离机制同模型内只读 vs 可写跨厂商模型分工
隔离边界文件系统(写权限)模型选择(Fable vs GPT)
切换方式用户手动 Shift+Tab自动按角色路由
治理文件CLAUDE.md(Anthropic 生态)CLAUDE.md(跨模型复用)
成本结构单订阅 + token 计费双订阅($400/月固定)+ token

这一迁移的本质是:「Plan/Execution 分离」从单模型内的功能变成跨厂商的架构选择。Berman 的工作流不是 Anthropic 官方推荐范式的延伸,而是社区极客对官方范式的「跨厂商放大」。

「50% → 0%」:theo 给出的最硬指标

theo 自陈的两组数字是这场工作流公开事件里最有冲击力也最有保留必要的内容:此前 50% 的 agent 驱动 PR 会被 reviewer 关掉、搭这套工作流后当天零 PR 被关闭(据 theo 推文 2072482460122964067,原文未抓取)。把这两组数字放进 AI agent 工作流的指标体系里读,会发现它的特殊价值——它不是「节省 X 小时」,也不是「提效 X%」,而是「从 review 失败到 review 通过」的硬质量指标

PR 关闭率为什么硬?因为它对应 reviewer 在 review 流程上的真实判断,直接对接「agent 产出能不能进 main 分支」。相比 NBER w33777 调研中的「AI 节省约 2.8% 工时」(详见 2026-07-04 AI 早报「HN 三连质疑 AI 商业价值」),PR 关闭率是开发者协作链条上的末端指标——节省的时间可能虚高、提效的口径可能自报,但 PR 关没关是 reviewer 投的票。

但要诚实地把这组数字摆出来,必须标注三处 caveat:

第一,数据是单日观察(theo 称「当天」),长期均值、样本分布、reviewer 身份未公开。N=1 天的 0% 与 N=90 天的 50% 都不是可比较的统计量;若 theo 的 reviewer 恰好在当天心情好、或当天的 PR 都恰好简单,「0%」可能是幸存者偏差。

第二,reviewer 是 AI 还是人类未细分。若 reviewer 仍是 GPT 系模型(GPT-5.5 / GPT-5.6),存在 LLM-as-judge 研究反复警告的「self-preference bias」——同一系列模型倾向于批准自家产出的 PR。若 reviewer 是人类,则「0%」更可信。

第三,关闭原因未细分。rebase 失败、风格不合、测试缺失、真正逻辑错误,在 PR review 里都被统称「关闭」。若 Berman 工作流改善的只是 rebase 与风格,逻辑错误率未变,则「0% 关闭」是表面胜利。

即便这三处 caveat 摆出来,「50% → 0%」仍是 2026 H2 AI agent 工作流公开数据里最值得跟踪的硬指标之一。原因很简单:NBER w33777 在 2026-05 给出「AI 节省约 2.8% 工时、3-7% 转化为工资」时,它是基于 ~25,000 工人 / ~7,000 工作场所的纵向研究;而 theo 的「50% → 0%」是 N=1 的开发者自报——两者都不完美,但「PR 关闭率」在 agent 工作流的指标光谱里,比「自报节省时间」更接近 ground truth。这是 watchlist 中最值得 Berman / theo 后续公开月度追踪的原因:若 50% → 0% 的反差在 N=30 / N=90 天后仍维持,「Planning / Execution 跨厂商分工」就是可持续的硬指标;若均值回落到 20-30%,则单日 0% 是幸存者偏差。

CLAUDE.md:从 Anthropic 生态约定到跨模型治理胶水

CLAUDE.md 在 Berman 工作流中承担的不是「Anthropic 专属配置文件」,而是 theo 推广为可被任意 agent harness 解析的「规则存储层」——这一定位升级是这套工作流在架构上最值得关注的创新。

Anthropic Claude Code 官方文档对 CLAUDE.md 的定义是「a special file that Claude reads at the start of every conversation」(Claude Code Docs:How Claude Code works)。文档进一步说明 CLAUDE.md 的设计原则:

应当包含不应包含
Claude 猜不到的 Bash 命令Claude 读代码就能推断的信息
与默认不同的代码风格规则Claude 已知的语言约定
测试指令与首选 runner详细 API 文档(应链接到 docs)
仓库礼仪(分支命名、PR 约定)经常变化的信息
项目特定的架构决策长篇解释或教程
开发环境怪癖(必需环境变量)文件级 codebase 描述
常见陷阱或非显而易见行为「写干净代码」这类不言自明的实践

文档还明确 CLAUDE.md 可放在多个位置:home(~/.claude/CLAUDE.md)、project root(./CLAUDE.md)、child directory(子目录按需加载)、并支持 @path/to/import 嵌套。这意味着 CLAUDE.md 本质上是一个可嵌套、可版本化、可被 git 追踪的提示缓存(prompt cache)——Claude 启动时自动加载,不需要在每次 prompt 里重复。

theo 在 2026-04 把 CLAUDE.md 框架推广的关键不是「Claude 专用」,而是「可被任何 agent harness 解析的规则文件」——Berman 在 Fable 5 + GPT-5.5 工作流中直接复用,把 Anthropic 生态的「约定文件」跨厂商移植。这一步的意义不亚于 LangChain 把 prompt template 从单一模型升级为多模型可复用的抽象层。

但这层抽象是否真的能在 Fable 5 与 GPT-5.5 上稳定工作,有几个未验证的工程细节:

一、Berman 是否把同一份 CLAUDE.md 同时喂给 Fable 5 与 GPT-5.5? 若为每个模型维护一份变体,则「治理胶水」实质上分裂成两份,跨模型一致性靠人工维护;若同一份共用,则需要验证 Fable 5 走 Anthropic API 时是否按 Anthropic 协议读取 CLAUDE.md。

二、Fable 5 是否原生支持 CLAUDE.md 读取? Anthropic Claude Code 的 CLAUDE.md 是 Claude Code 客户端解析后注入 system prompt 的机制,Fable 5 的客户端 / CLI 是否实现同等读取路径未公开。

三、同一规则在不同模型下的解读差异? 「Always run linter before commit」这条规则,在 Sonnet 5 / GPT-5.5 / Fable 5 上的执行可能因为工具调用语法差异产生「同一指令不同执行路径」——这是跨模型治理的「语义漂移」风险。

这些问题目前都没有公开答案。但这套工作流把「规则文件」与「模型选型」解耦这件事本身,是 2026 H2 agent 工程实践的一次范式信号:即使 Fable 5 明天被 Sonnet 6 替代、GPT-5.5 明天被 GPT-6 替代,CLAUDE.md 仍然可以保留——治理层独立于模型层,这一点对长周期项目的可持续性至关重要

$400/月的 TCO:经济学上的「买分工」成本

把 Berman 工作流的经济学摆开:Fable 5 $200/月 + GPT-5.5 $200/月 = $400/月固定订阅(据 Berman 推文描述,具体档位 Pro / Max / Team / Enterprise 与是否含 token 计费未在原推公开)。这还没有把 Claude Code 本身订阅、Cursor / Windsurf 等 IDE 订阅、以及 token 计费的浮动成本算进去——若 Berman 实际工作流是 Fable 5 + GPT-5.5 + Claude Code + Cursor 四线叠加,总月成本可能远超 $400。

把 $400 放进 2026 H2 的 AI 订阅市场坐标系读,它位于中高区间:

订阅档位月费主要权益
Claude Pro$20基础 Sonnet 访问
Cursor Pro$20基础 IDE 集成
ChatGPT Pro$200高级模型 + 一定 token
Claude Max$200高级模型 + 较多 token
Berman 双模型组合$400Fable + GPT 双线固定订阅
Claude Enterprise按席位私有部署 + SSO

这一成本结构对个人开发者不算便宜(等于 4-5 个 Cursor Pro 订阅),但对独立工作流编排者(Berman、theo 这类以 AI 内容生产为主要收入的 KOL)是可接受的「买分工」成本——因为他们产出的内容(教程、工具评测、工作流揭秘)能直接变现,工具月费是内容生产的成本而非纯支出。

但这里有一个隐藏的 TCO 风险:Fable 5 与 GPT-5.5 各自的浮动 token 计费未在 Berman 原推公开。Anthropic Sonnet 5 标准定价 Input $3 / MTok、Output $15 / MTok,Opus 4.8 为 $5 / $25——若 Berman 把 Execution 步骤交给 GPT-5.5,且 GPT-5.5 按 OpenAI 标准 token 计费,浮动成本可能远超 $200/月固定订阅。$400/月是固定订阅的最低估算,真实 TCO 取决于每个模型的 token 消耗分布

早报观点

早报观点

Berman 这套工作流把 agent 工作流的三个角色拆给三个独立系统:Planning 交给 Fable 5,Execution 交给 GPT-5.5,Governance 交给 CLAUDE.md。这个分工与 Palantir Karp 在 7-1 把「按 token 付费 = 把核心竞争力喂给对手」推上主权级话语权,以及 theo 推广的 CLAUDE.md 治理框架,都指向同一条主轴:AI 价值创造的主动权正在从「单模型单订阅」回到「使用者主动管理多模型多订阅」。三件事一起,把 2026 H2 的 AI agent 工具链从「找最强模型」叙事推向「找最佳工作流」叙事。

这套工作流真正改变了的东西是「agent 工程的优化对象」。过去 2 年,开发者社区的优化对象是「单模型」(谁家 Sonnet / Opus / GPT 跑分更高、谁家 Claude Code 更智能),评测对象是 benchmark。Berman 把优化对象从「单模型」迁移到「多模型协同的工作流」——评测对象从 benchmark 迁移到 PR 关闭率、review 通过率、commit 可合并率。这一迁移的意义类似于从「选最好的车」迁移到「选最好的出行组合」(打车 + 地铁 + 单车的多模态组合)——单一指标(车的马力)被多模态指标(出行时间、出行成本、出行可靠性)替代。

但这条主轴的反面 caveat 必须摆出来。theo 的「50% → 0%」是 N=1 单日数据,没有 N=30 / N=90 天的长期均值;reviewer 是 AI 还是人类、关闭原因细分均未公开;若 reviewer 仍是 GPT 系模型,可能存在 LLM-as-judge 研究反复警告的「self-preference bias」——同一系列模型倾向批准自家产出。Berman / theo 原推文均未直接抓取(平台付费墙),上述所有数字基于话题摘要中转述,具体边界与档位细节需以原推为准。CLAUDE.md 是否真的能被 Fable 5 与 GPT-5.5 完美解析(尤其是 Fable 5 是否按 Anthropic 协议读取)未验证;同一规则在不同模型下的解读差异是否会产生「治理漂移」未实测。Fable 5 在 60+ 个 3D 生成测试中被社区评「最令人印象深刻的模型」(arena 推文),但「3D 生成」≠「长上下文规划 / 复杂任务分解」,Fable 5 在 coding agent 工作流中的 Planning 能力是否对得起 $200/月订阅尚未有独立公开评测。GPT-5.5 在 Execution 阶段的 TCO 未公开——若按 OpenAI 标准 token 计费,$200/月固定订阅 + 浮动 token 可能远超 $400/月。

对谁有利,谁不利?

**有利:多模型 agent harness / 编排工具(LangGraph / AutoGen / CrewAI / Claude Code 的 subagent / Agent Teams)——**这套工作流把「Plan 走别家、Execute 走自家」从极客玩法变成可被复制的范式,会推动编排工具的进一步分化(从「同模型内 Plan Mode」进化到「跨厂商 Plan Routing」)。

**有利:第三方公开评测基础设施(Arena.ai / LMArena / HuggingFace OpenLLM Leaderboard)——**若 AI 价值叙事从「厂商自报 benchmark」转向「工作流第三方复测」(类似 PR 关闭率这种末端指标),评测基础设施的产业话语权会显著上升。

**有利:治理层 / 配置文件生态(CLAUDE.md / AGENTS.md / .cursorrules 等)——**Berman 把 CLAUDE.md 跨模型复用,是「治理文件」从单一生态约定升级为跨厂商标准的关键节点,后续可能催生「跨模型规则标准」的开源协议。

**不利:「单模型最强」的营销叙事(无论是 Anthropic Sonnet 5 营销页还是 OpenAI GPT-5.5 营销页)——**这套工作流的实证(50% → 0%)若被广泛复制,「买最强单模型」的 ROI 会被多模型编排的 ROI 替代,单模型订阅市场的增长曲线会被压制。

**混合:个人开发者与独立工作流编排者(KOL / 工具作者 / 教程作者)——**对独立工作流编排者(KOL / 工具作者),$400/月是可接受的「买分工」成本,因为内容生产能直接变现;对普通个人开发者,$400/月是显著门槛——这条工作流会加剧「KOL 与普通开发者的工具能力差距」。

对 Anthropic 自身的张力最微妙。Anthropic 在 2026-06-30 把 Sonnet 5 推到「最具 agentic 能力」的位置,本意是让开发者「一个 Claude Code 通吃」;Berman 这套工作流把 Plan 步骤交给别家(Fable),这是对 Anthropic 「单模型最强」叙事的实际反驳。若 Berman / theo 工作流的长期 PR 关闭率追踪数据公开,且在 50% → 0% 量级稳定,Anthropic 后续可能需要官方背书「Plan 走别家模型、Implement 走自家模型」的混合编排范式——这与 Anthropic 当下的「单模型最强」营销形成内在张力

接下来看什么

  • Berman / theo 原推文的具体工作流分工细节能否在 7-5 / 7-6 通过非 X 渠道(博客 / YouTube / GitHub 仓库)获得二次印证:Planning 与 Execution 的边界、review 与 commit 归属、CLAUDE.md 是否被同一份同时喂给两个模型——原推文未抓取,具体边界与档位细节需以原推为准;若 Berman 后续在博客或 YouTube 上公开工作流录屏,会成为该范式可被复制的关键节点。
  • theo 50% → 0% 的 PR 关闭率数据长期化:目前为单日观察(theo 称「当天」),长期均值、样本分布、reviewer 身份(AI vs 人类)、关闭原因细分(rebase 失败 vs 风格不合 vs 真正逻辑错误)均未公开;若 theo / Berman 公开 N=30 / N=90 天均值,是该工作流价值的硬指标。
  • Fable 5 在 coding agent Planning 场景下的独立公开评测:Fable 5 在 60+ 个 3D 生成测试中被社区评「最令人印象深刻的模型」(arena 推文),但「3D 生成」≠「长上下文规划 / 复杂任务分解」——Fable 5 在 coding agent 工作流中的 Planning 能力是否对得起 $200/月订阅尚未有独立公开评测;若 Arena 后续公布官方排行榜分数,是关键判据。
  • GPT-5.5 在 Execution 阶段的 TCO:GPT-5.5 若按 OpenAI 标准 token 计费,$200/月固定订阅 + 浮动 token 可能远超 $400/月,实际成本未公开;若 Berman / theo 是 Pro / Team / Enterprise 档位(已含足量 token),固定 $200/月是合理估算,否则浮动成本可能再翻倍——这是「买分工」经济学是否真正成立的关键变量。
  • CLAUDE.md 跨厂商模型的可移植性实测:Berman 是否真的把同一份 CLAUDE.md 同时喂给 Fable 5 与 GPT-5.5,还是为每个模型维护一份变体;Fable 5 是否原生支持 Anthropic 协议的 CLAUDE.md 读取;同一规则在不同模型下的解读差异是否会产生「治理漂移」——若 theo 后续公开 CLAUDE.md 原文,可验证其规则密度是否真能被两个不同模型稳定执行。
  • Anthropic 后续是否推出官方「跨厂商模型编排」指南:目前 Claude Code 文档的 Plan Mode 与 Auto Mode 设计都是「同模型内分工」;若 Anthropic 官方背书「Plan 走别家模型、Implement 走自家模型」,会加速多模型编排从极客玩法变成主流范式;若 Anthropic 官方反对 / 沉默,这一做法会停留在社区层面。
  • Berman / theo 是否会公开工作流的月度 PR 关闭率追踪数据:若持续公开,可成为「跨厂商模型编排」的第一份长期硬指标;若不公开,「50% → 0%」会被业界视为营销故事而非可验证工作流——这是社区是否把这一范式纳入 reference architecture 的关键判据。