研究论文

桥水 + Tinker 把 Qwen3-235B 微调成金融筛选专家:84.7% Accuracy 反超 GPT-5.5,推理成本砍 13.8 倍

桥水用 Qwen3-235B 微调反超 GPT-5.5,推理成本砍 13.8 倍。

2026年7月5日 · 周日 深度报告 高置信 重要度 5/5

本文要点

  • 从「闭源前沿模型独占金融任务」变成「开源 235B 微调后反超最强闭源模型 6.5 个百分点」
  • 从「专家标注昂贵」变成「模型识别争议样本后定向送专家,只清洗 Hard Cases」
  • 从「全量微调昂贵」变成「Tinker 提供 LoRA 四原语(forward_backward 等)」

阅读辅助

先看数字、证据和来源,再读正文。

84.7% 微调后模型平均 Accuracy
29.8% 错误率下降
5 条 Claim Audit

Qwen3-235B 微调后以 84.7% 平均 Accuracy 反超 GPT 5.5(78.2%)与 Opus 4.8(78.0%)。

6 个时间点

2026-06-30 · Tinker 博文与 Bridgewater 联合报告上线

7 个来源 3 个非 X 来源

桥水基金(Bridgewater Associates)的 AIA Labs 与 Mira Murati 创办的 Thinking Machines 联合发布的技术报告,把”开源基座 + 专家清洗 + 工程化微调”这条路径第一次做成可下载的 recipe:用 Qwen3-235B 在 Tinker 平台上做金融文档微调,六项任务平均 Accuracy 84.7%,错误率比 2026 年 5 月最强闭源前沿模型低 29.8%,推理成本下降 13.8 倍。论文署名作者 Sarah Su、Kevin Zhu、Emily Xiao、Rohan Alur、Daniel Kang 五人均来自 Bridgewater AIA Labs;任务定义取自桥水内部投资流程的真实数据——财经文章相关性、央行文件与利率信号、研究文件与问题相关、研究文档标签与关键页定位、文档模板内容起点、邮件模板内容起点;标签由桥水资深投资经理给出。

84.7% 不是单一技巧堆出来的,而是三段训练工程的累计结果。把三段拆开看,每一步都对应一个具体的失败模式:多任务训练偏向高频任务、保守策略在金融语境里被过度惩罚、teacher 不能用静态 checkpoint。把三段合起来,就是从基座 + GRPO 的 73.48% 推到 84.7% 那 11.2 个百分点的真实来源。下面按”做法 → 增益 → 消融退步 → 代码层细节”逐段展开。

起点:为什么通用模型在金融语境是死的

Qwen3-235B Instruct 作为基座,零样本 Accuracy 仅 44.8%。这条数字一开篇就把”通用模型在金融语境几乎不可用”钉死——加再多的 few-shot prompt 工程,也无法把一个为开放域对话训练的 235B MoE 模型,拉进桥水对”央行措辞 vs 公司公告 vs 分析师报告”的细分判断里。

加上 GRPO 强化学习之后,基线爬到 73.48%。这条数字是后续所有消融实验的对照线——三段工程改造的增益,都是以 73.48% 为零点的相对量。RL 单独把模型推到这一档,但仍落后闭源前沿模型 GPT 5.5 的 78.2% 与 Opus 4.8 的 78.0%;落后闭源不是问题,问题在于即使闭源前沿模型再涨一档,GPT 5.5 比 GPT 5.4 也只提升 2.4 个百分点,而价格贵 43%。这条”性价比见顶”的曲线,正是 Bridgewater 选择不再等下一代闭源模型、自己动手微调的现实理由。

Recipe 1:Interleaved Batching——把多任务循环起来

做法:六项金融任务在训练时不再做全混合随机采样,而是按循环顺序把同一任务的 batch 排成一段,再把六段交错拼接。换言之,模型先吃完一段”财经文章相关性”、再吃一段”央行文件信号”——而不是六个任务的样本在每个 step 里完全混着来。

增益:+12.1 个百分点(消融退步到 72.18%)。这是三段里最大的一块,也是最反直觉的一块:多任务 RL 的标准做法是均匀混合,认为混合越充分、模型越能泛化;但金融语境下,频繁切换任务会让模型在学”哪一项任务当前有效”上浪费容量。循环顺序让模型在每段 batch 里专注同一目标分布,梯度方向更干净。

代码层细节:消融对比的是”循环交错”与”完全随机混批”两种采样器,前者由训练脚本在每个 step 按任务 index 轮转取批;后者用无放回随机。两个采样器对同一批训练数据产生不同 batch 序列,差值就是 Interleaved Batching 的纯贡献。去掉这一段,模型直接退回到 73% 上方一点的水平,几乎损失掉 GRPO 之外的全部 RL 红利——说明 RL 单独不够,任务结构本身也得重新切。

Recipe 2:CISPO + 非对称裁剪——重写强化学习的损失函数

做法:把标准 RLHF 的 PPO 损失项换成 CISPO(Clip-In-State-Side Policy Optimization,Thinking Machines 团队此前已在 TRL 等开源 RL 框架里发表过),再叠加一道”非对称策略偏离裁剪”——策略离 teacher 太远时,正向偏移(clip 区间上沿)和负向偏移(clip 区间下沿)用不对称的阈值处理。

增益:+10.1 个百分点(消融退步到 74.56%)。

代码层细节:标准 PPO 用的 clipping 区间对正向、负向偏离是对称的(例如 ±0.2),保守更新和激进更新用同一阈值。CISPO 的非对称变体在金融语境下的核心直觉是——金融决策的”过保守”和”过激进”代价不对称:把”这是一份无关新闻”误判为”相关信号”会让模型召回过多假阳性,把”央行加息信号”误判为”无关”会让模型漏掉真正的尾部事件。前者的代价是增加人工复核量,后者的代价是丢掉一次交易机会。CISPO 把 clip 上沿放得比下沿更紧,等于在训练时显式告诉优化器”激进判断的边际惩罚更重”,把模型推向保守侧,符合金融筛选任务对”漏检比误检更便宜”的工程偏好。

去掉 CISPO、退回标准重要性采样(IS)损失,模型只剩 74.56%;叠加 Interleaved Batching 也不足以补回这段损失——说明 CISPO 是独立贡献项,不是 Recipe 1 的余震。

Recipe 3:On-Policy Distillation——让 teacher 跟着验证集动

做法:每训练 20 步,从验证集上挑出当时表现最佳的 checkpoint,把它临时升级为 teacher,用它的 logprob 做 student 的正则项;teacher 每 20 步刷新一次,而不是训练开始就冻结。

增益:+3.1 个百分点(消融退步到 72.39%)。三段里最小的一块。

代码层细节:OPD 与传统 Knowledge Distillation 的差别在 teacher 的更新节奏。静态 KD 把 teacher 永远冻结在训练起点的某个 checkpoint,student 学的是一个不再进化的分布;OPD 把”teacher 模型”变成一个随验证集表现滑动的窗口——本质上是用验证集分布做 ensemble,把当前最优模型反复蒸馏进 student。消融实验中另一组对照(“teacher 冻结不更新”)退到 81.55%,只比最终成绩低 3 个百分点,正好印证”teacher 要跟着验证集动起来”这个直觉,但 3 个百分点已经是动与不动的全部差距——换言之,Recipe 3 的绝对增量在数值上不显眼,在原理上却是”动态 teacher”这一类 RL 微调技巧在金融语境首次被量化的案例。

如果把 Recipe 3 与 Recipe 1、Recipe 2 叠起来看,三段各有独立失败模式:多任务偏向、保守策略过惩罚、静态 teacher。三段各自的消融退步都接近去掉该段后的基线,说明三段之间没有显著的相互依赖,是”叠加”而非”放大”的关系。FeitengLi 的中文解读把这三段称作”高敏感垂直微调的三块拼图”,但更精确的描述是——三段里没有任何一段是模型架构或新算法,都是已有方法在金融语境下的工程化复刻。

三段全开之后,与闭源前沿的横向刀锋

把 Recipe 1/2/3 全部叠加,Qwen3-235B 的六项任务平均 Accuracy 从 73.48% 推到 84.7%。横向对比同一组任务上的闭源前沿模型,这张表才是这份报告真正的刀锋:

模型发布时间六项任务平均 Accuracy
Qwen3-235B 基座(零样本)44.8%
Qwen3-235B + GRPO73.48%
微调后 Qwen3-235B(本研究)2026-06-3084.7%
Opus 4.62026-02-0577.2%
GPT 5.42026-03-0575.8%
Gemini 3.1 Pro2026-02-1974.3%
GPT 5.52026-04-2378.2%
Opus 4.82026-05-2878.0%

微调后的 84.7% 比最强闭源 GPT 5.5(78.2%)高 6.5 个百分点;错误率换算后从 21.8% 降到 15.3%,相对降幅 29.8%。这一刀不是边缘胜利,是把闭源前沿模型在金融语境下的天花板整个翻篇。

数据清洗回路:专家只在 Hard Cases 进场

三段训练工程之外,数据回路才是整套方法论的根。Bridgewater AIA Labs 一开始也走外包标注,跑模型发现 Reasoning Trace 经常荒谬,才意识到标签本身是脏的;但桥水内部投资经理的时间贵,不可能把所有样本送回去重标。

“We initially sourced a dataset from vendors providing non-expert labeling. Models trained on this dataset still performed poorly. After examining the reasoning traces of the model we realized that the labels in the dataset were often wrong.” — 博文节选,X 用户 @alexhock 引用

回路设计是四步闭环:(1) 用非专家标注数据训练第一版模型;(2) 让该模型对同一份训练集做预测;(3) 模型预测与人工标签不一致的样本,只把这一部分送桥水内部专家复核;(4) 用清洗后的训练集重训。杀伤力在于”模型替人类挑 Hard Cases”——专家只需要看模型觉得难的样本,而不是把所有样本看一遍。这条回路让 84.7% 这件事在数据侧有了可信度:不是单纯靠训练工程把 Loss 拉低,而是先把数据的标签噪声压到极低,再让 RL/微调在干净标签上学。

为什么这件事不只是”开源胜利”

把经济、工程、国产开源三层信号压成一段:单一信号是开源模型反超闭源,复合信号是”高敏感垂直 + 私有化部署 + 微调平台”这条路径第一次被一家全球最大对冲基金公开背书。 13.8 倍的推理成本优势如果只在 API 单价口径下成立,叠加 235B 私有化部署的固定成本与桥水资深投资经理清洗数据的工时,小买方未必能复用;但对日均万级查询的金融终端(Bloomberg、Refinitiv)而言,这把账是合算的。Tinker 平台同步把 Qwen3.5/3.6 全系、DeepSeek V3.1、Kimi K2.6、GPT-OSS、NVIDIA Nemotron 等当前最强开源/开放权重集合做成白名单(forward_backward / optim_step / sample / save_state 四原语 + LoRA 路径 + “Your data is used solely to fine-tune your models”),把 Bridgewater 这一例扩展为可复现模板——Qwen3-235B 是这一轮的载体,但真正可被拿走的是 recipe 而不是权重。X 用户 @airbai 在 Murati 推文下的回应(“Yeah, Qwen is used by lots of financial org in China here”)点出另一面:这是国产开源基座首次在金融垂直的对外公开案例里,被海外一线买方背书。

反方与不确定性

第一,13.8 倍是单位推理成本比较,不是总账。 X 用户 @Miner88188 的完整提醒:

“235B(2350 亿参数)在开源界私有化部署需要极为昂贵的 enterprise 级多卡 GPU 显存支持。文章只计算了单次调用的 Token 费用,却忽略了私有化部署和前期专家清洗数据的巨大固定成本,对小企业来说,这个’省钱’的结论并不一定成立。”

固定成本至少包含三块:235B 私有化部署的多卡 GPU 折旧(常见做法 8×H200 或同档)、桥水内部投资经理清洗数据的工时成本(FeitengLi 解读里直接用”高成本的专家品味”形容)、Tinker 平台自身按 token 计费的部分。13.8 倍成立的边界条件,是模型每天被高频调用、把固定成本摊薄到边际成本之下;调用量小的买方,这笔账未必划算。

第二,六项任务的测试集不公开。 准确率 84.7% 是 Bridgewater AIA Labs 内部测试集上的成绩,任务定义、标签分布、样本难度均未对外披露。X 用户 @TheChartist7 的尖锐追问直指此点:“I didn’t once hear a mention of a test set… did they literally fine tune and test the accuracy/F1 on the same data??? Of course fine tuning can over fit。“博文里其实是分了 held-out test set(原文”The final evaluation was done on a held out test set”),但具体划分方式不公开,外部团队无法在自备金融语料上做对照。

第三,前沿闭源模型是否会被一起微调? Tinker 目前白名单里没有 GPT 5.5 / Opus 4.8 这类闭源模型作为对照微调基线。如果未来闭源厂商也在自家平台上做同款微调,84.7% 这个数字会不会被追平甚至超过,目前看不到对照实验。

第四,SOTA 衰减问题。 X 用户 @avijit_dey1981 给出更长期的视角:“SOTA typically beats fine tuned models in 1 year and cost also reduces. It would be useful to revisit this case study in end of 2027。“微调模型的最大风险是基座被下一代 SOTA 超越后,ROI 窗口收窄。Bridgewater 选择 Qwen3-235B 而非更新的 Qwen3.6 系列,本身也暗含对”成熟基座比最新基座更稳”的取舍。

早报观点

终审校稿时,我反复重读了原报告,判断重心从 84.7% 这个结果数,转向这三段 Recipe 能不能被外部团队在自备数据上复现。这件事比”Bridgewater 用 Qwen 赢了 GPT-5.5”重要十倍——Bridgewater 哪怕不接这个项目,Qwen 系列迟早也会在某个垂直冒头;但 Recipe 1/2/3 是否构成可下载的训练规范,决定了接下来一年里,法律、医疗、监管报告、券商研报这些”高敏感 + 高准确率 + 高调用量”的垂直能不能复制同一份工程蓝本。

Recipe 1(Interleaved Batching)是最容易复刻的一段。 把采样器从”完全随机混批”换成”循环顺序交错”,代码改动量在百行以内,几乎不需要额外基础设施。但它的代价是消融退步最大(72.18%),意味着”任务结构决定信号纯度”这一直觉一旦在自备数据上验证,任何”用 RL 把多任务模型训通”的尝试都不应该跳过这一步;而目前 RL 训练的最佳实践范式里,这一段恰恰不是默认选项。这是 recipe 最具迁移性的一个支点。

Recipe 2(CISPO + 非对称裁剪)的可复现性受限于框架支持。 Thinking Machines 团队此前已在 TRL、verl 等 RL 框架贡献过基础组件,这次 CISPO + 非对称变体的具体形式,会决定它在多大程度上能”装上就用”。如果论文作者把这一段单独抽出来放进开源 RL 框架,法律、医疗等垂直的 RL 微调门槛会被实质性拉低;但这一动作目前还没发生,Recipe 2 是 recipe 包里最值得盯着开源节点的一段。

Recipe 3(OPD)的边际增量只有 3.1 个百分点,但原理价值高于数字价值。 它把”teacher 模型”从静态工件变成跟随验证集滑动的窗口,这一思路对所有”没有 ground truth teacher、只能用 self-distillation”的 RL 微调场景都有借鉴意义。问题在于 3.1 个百分点是否足以让外部团队在自备数据上复制这一段——若自备任务的验证集分布与桥水六项任务差距较大,“每 20 步刷一次 teacher”的频率假设需要重新调。Recipe 3 写起来容易、跑起来吃数据。

反向 caveat 是这套 recipe 的最大风险。 三段都不是算法创新,都是工程细节的反复推敲;这意味着 recipe 没有”专利护城河”,任何一家训练基础设施公司都能在 3 个月内复刻。但 recipe 没有护城河的另一面,是 recipe 也不会因为基座迭代而失效——只要 Qwen、DeepSeek、Kimi 这一档开源/开放权重基座继续演进,Recipe 1/2/3 就可以平移到更新基座上。这与”SOTA 衰减”的担忧是同向的:Recipe 是平台型资产,基座是消耗型资产,Bridgewater 选择 Tinker 而不是私有 GPU 集群,真正买的是 recipe 的可移植性。

最后一项判断:Qwen3-235B 是这一轮的载体,不是终点。 235B 是 MoE、A22B 激活,部署门槛比同档稠密小一档;但 Qwen3.6 系列已经在更长上下文(央行会议纪要超过 200K token)、结构化输出(JSON / 表格 / 字段抽取)、工具调用三个方向演进。社区和金融买方之间仍需要一次”用 Qwen3.6 + 内部数据 + Recipe 1/2/3 微调”的复现案例,才能把”国产开源能做金融底座”从口号固化成共识。这件事不发生,84.7% 的故事就只是桥水一家公司的内部胜利;发生,recipe 才真正成为资产。

接下来看什么

第一个观察点:六项任务的测试集是否随论文同步公开。 Thinking Machines 在 2024 年与 2025 年发布过几次技术报告,有的会附带数据集或可复现脚本。这一次博文披露的方法细节足够细,但任务数据未公开。如果未来 30 天内补一份带数据的复现包,这篇报告的影响半径会从”对冲基金自用案例”扩到”通用金融微调基准”,Recipe 1/2/3 也才能在外部数据集上验证可复现性。

第二个观察点:CISPO + 非对称裁剪 + On-Policy Distillation 这套组合是否沉淀进开源 RL 框架。 Thinking Machines 团队此前已经把 RL 训练基础设施的多个组件贡献到 TRL、verl 等项目。如果这次的三段式 recipe 被同步开源,等于把”高敏感垂直微调”从”大机构专属”做成”研究员也能跑”,生态价值远超单点案例。

第三个观察点:Tinker 平台后续是否补齐闭源前沿模型作为对照基线。 目前 Tinker 白名单里没有 GPT 5.x、Claude 4.8、Gemini 3.x。如果 Thinking Machines 在下一份报告里补上”在 Tinker 上对 GPT-OSS-120B / DeepSeek V3.1 做同款微调,84.7% 是不是会被刷新”,会大幅抬高平台价值——也会反过来拷问 Recipe 的可迁移性是否依赖基座本身。

第四个观察点:235B 私有化部署在金融场景的 TCO。 13.8 倍推理成本优势能否站住,取决于调用频次能否摊薄 GPU 折旧与专家清洗成本。如果出现一份”按调用量分档的 TCO 对照”,会把这套方法论的适用边界讲清楚——目前 Miner88188 的反方提醒,基本只覆盖到固定成本结构,没人给出过量化区间。

第五个观察点:Qwen3.6 系列 + Recipe 1/2/3 的复现案例。 当前 best-known 复现是 Bridgewater 自家,Qwen3.6 / DeepSeek V3.1 / Kimi K2.6 这几个下一代基座上还没看到公开案例。Recipe 1/2/3 是 recipe,基座是它落地的画布;画布更新一代,recipe 是被证伪还是被加强,这是接下来 6-12 个月里对 recipe 包最有效的判据。

第六个观察点:MoE vs 稠密模型的金融微调边界。 Qwen3-235B 是 235B 总参数、A22B 激活的 MoE 架构,部署门槛比同档稠密模型小一档。但 Tinker 平台的白名单里同时也有 Qwen3.5-397B-A17B、GPT-OSS-120B、NVIDIA Nemotron-Ultra-550B-A55B 这类更大的 MoE 模型,以及 Qwen3.5-4B 这类小稠密模型。235B 是否是金融垂直微调的”甜点位”,还是更小模型配合更强数据清洗就能追平 84.7%——这是社区复现这道菜时绕不开的实证问题。

附:论文消融实验完整数据(折叠)
改造项状态六项任务平均 Accuracy
Qwen3-235B 基座零样本44.8%
+ GRPO替换监督学习为 RL73.48%
+ Interleaved Batching循环顺序交错批处理+12.1pp
+ CISPO + 非对称裁剪替换重要性采样损失+10.1pp
+ On-Policy Distillation每 20 步动态 teacher+3.1pp
最终模型三段全开84.7%
消融:去掉 Interleaved Batching退回随机混批72.18%
消融:去掉 CISPO用标准 IS 损失74.56%
消融:去掉 OPD无蒸馏正则72.39%
消融:teacher 冻结不更新单 teacher 监督到底81.55%

(数据来源:Thinking Machines 博文)

附:Tinker 平台白名单与计费(折叠)

支持的开源/开放权重模型(2026-07 截点)

  • Qwen:Qwen3.6-35B-A3B、Qwen3.6-27B、Qwen3.5-4B/9B/9B-Base/35B-A3B-Base/397B-A17B、Qwen3-8B
  • GPT-OSS:120B、20B(均为 MoE)
  • DeepSeek:V3.1
  • Moonshot:Kimi K2.5(2026-07-12 退役)、Kimi K2.6
  • NVIDIA:Nemotron-3-Nano-30B-A3B、Super-120B-A12B、Ultra-550B-A55B

计费:按 token 计费,USD/百万 token,分 Prefill / Sample / Train 三档;存储 0.10 美元/GB-月;Nemotron 系列限时 5 折。

核心原语:forward_backward / optim_step / sample / save_state

数据使用承诺:“Your data is used solely to fine-tune your models. We do not use your data to train our own models.”

(数据来源:thinkingmachines.ai/tinker 平台页)