最新一期第 14 期 · 共 19 条信号

2026年7月5日

周日 · 过去 24 小时的 AI 世界

桥水验证垂直 AI,Fable 5 工作流层落地,高价闭源定价权拐点显现

桥水与 Thinking Machines 用 Qwen3-235B 跑出 84.7% 金融微调 Accuracy,垂直 AI 路径首次被华尔街量化兑现。
双 $200 订阅用户主动编排 Fable Planning 加 GPT-5.5 Execution 的角色分工。

本期判断

一是 Fable 5 红利从单点对话向工作流层渗透,Planning、Execution 模型分工成头部用户主动编排的范式。
二是 LLM Token 单价 6 月回落,高价闭源定价权叙事让位于低价模型吃执行端。

本期速览

01桥水验证垂直微调
- Qwen3-235B 金融 Accuracy 达 84.7%。
02双模型工作流成型
- Fable 规划,GPT-5.5 执行。

On this page

本期导航

深度报告 · 7 篇快讯 · 12 条推特讨论 · 10 条

Deep Dives

本期重点 · 深度报告

7 篇

研究论文重要度 5/5

桥水 + Tinker 把 Qwen3-235B 微调成金融筛选专家:84.7% Accuracy 反超 GPT-5.5,推理成本砍 13.8 倍

桥水用 Qwen3-235B 微调反超 GPT-5.5,推理成本砍 13.8 倍。

阅读深度报告 →

行业动态重要度 5/5

Jalapeño 是 OpenAI 的第二条硅路径:Broadcom 系 ASIC 想从 NVIDIA 嘴里抢下「推理」这块更大的蛋糕

OpenAI 把「推理」当成比「训练」更严肃的算力问题——Jalapeño 是这条财务逻辑的产品级落地。

阅读深度报告 →

观点观察重要度 4/5

Berman 双 $200 订阅工作流:Fable 5 规划 + GPT-5.5 执行,CLAUDE.md 当胶水

Fable 5 想、GPT-5.5 写、CLAUDE.md 管——Berman 把单 agent 工作流拆成三角色,把月费推到 $400。

阅读深度报告 →

行业动态重要度 4/5

LLM Token 单价 6 月回落,高价闭源模型的定价权拐点

高价 frontier token 的定价权拐点已经出现

阅读深度报告 →

观点观察重要度 4/5

HN 热议:AI 已「烧掉」初级程序员市场,但谁在补位?

初级岗位塌方,新人涌入井喷,编程正在从职称变成能力。

阅读深度报告 →

产品上新重要度 4/5

Claude Code 走微软 Foundry:把 5 小时墙换成 Azure 配额池

三行环境变量把 Claude Code 路由到 Microsoft Foundry,用企业配额池换掉 Anthropic 端 5 小时速率墙。

阅读深度报告 →

产品上新重要度 3/5

Superpowers 6.0 提速 50% 属实,但「接入 Fable 5」是误读——一篇事实核查

框架升级和模型回归是两件事——别让拼装出来的标题把方法论提升淹没在 AI 玄学里。

阅读深度报告 →

Key Numbers

Qwen3-235B 金融微调 Accuracy

桥水加 Thinking Machines Tinker 平台,基线 GPT-5、Claude 4.8 错误率高 29.8%

FeitengLi 解读

84.7%

推理成本降幅

vs 基线 GPT-5、Claude 4.8 同任务报价

桥水 Technical Report

13.8 倍

LLM Token 单价 6 月

从 5 月底近 $2 高位回落,每百万 tokens

AlphaguyTrading 指数

$1.6–$1.7

Superpowers 6.0 提速

v6.0.0 release notes 归因于评审流重写,不是 Fable 接入

superpowers releases

~2x

Microsoft Foundry 信用

Azure 新用户 30 天有效,学生 $2000 可用 12 个月

Azure 官方

$200

Fable 5 旧金山 3D 地图

Extra High 档单次任务,含 2600 栋建筑与 27 家科技公司总部

FinanceYF5 推文

2000 万 tokens

Briefs

快讯 · 看标题就懂

12 条

产品上新重要度 3/5 中置信已核验

Fable 5 重返 Arena,Battle Mode 加 Agent Mode 上线

Fable 5 重返 lmarena Arena,@petergostev 用 60 多个最难 3D 生成测试评价「可能是见过最令人印象深刻的模型」。
已上线 Battle Mode 和 Agent Mode,官方排行榜分数即将公布。

要点拆解展开

Why

Anthropic 用中立社区平台背书 Fable 5 生成能力,首次出现社区评测等同官方背书的转换。

Impact

开发者:可立刻在 Arena 试 Fable 5。
Anthropic:从 benchmark 自评转向社区评测。
竞争模型:GPT-5.5、Opus 4.8 在逻辑与长链路仍是短板。

Why

Anthropic 用中立社区平台背书 Fable 5 生成能力,首次出现社区评测等同官方背书的转换。

Impact

开发者:可立刻在 Arena 试 Fable 5。
Anthropic:从 benchmark 自评转向社区评测。
竞争模型:GPT-5.5、Opus 4.8 在逻辑与长链路仍是短板。

早报判断

Fable 5 在 Arena 的真实测试比官方 demo 更有说服力:60 多个高复杂度 3D 任务涵盖建筑密度、艺术风格、世界奇观。
「官方排行榜分数即将公布」意味 Anthropic 从 benchmark 自评转向中立社区平台背书。
生成质量已进第一梯队,但 GPT-5.5、Opus 4.8 的逻辑与长链路仍是短板。

接下来看

Fable 5 官方排行榜分数是否如期公布
Arena Battle Mode vs Agent Mode 实际分流

#Fable 5 #Arena #3D 生成

观点观察重要度 3/5 中置信多源混合

Fable 5「移植命令与征服」真相:99% 是开源社区地基

作者 ammaar 宣称用 Fable 5 把 2003 年 EA《命令与征服:将军》原生移植到 iPhone、iPad,无模拟器。
dotey 翻 commit 发现:ammaar 只贡献最近 19 个,其余 2000 个全来自 GeneralsX 自 2025 年 2 月起的积累。

要点拆解展开

Why

代表 AI 营销可信度的负面锚点,影响所有「AI 快速完成」类宣传的接受度。

Impact

开发者:识别 AI 营销真相的工程方法论。
营销方:类似话术公信力下降。
开源社区:GeneralsX 类项目价值被更多人看见。

Numbers

AI 实际贡献 commit: 19 个总数 2000+,ammaar 仅贡献最近一批 dotey 调查
社区积累起始: 2025 年 2 月 GeneralsX 跨平台移植,涵盖 DXVK iOS 与 MoltenVK GeneralsX GitHub

Why

代表 AI 营销可信度的负面锚点,影响所有「AI 快速完成」类宣传的接受度。

Impact

开发者:识别 AI 营销真相的工程方法论。
营销方:类似话术公信力下降。
开源社区:GeneralsX 类项目价值被更多人看见。

Numbers

AI 实际贡献 commit: 19 个总数 2000+,ammaar 仅贡献最近一批 dotey 调查
社区积累起始: 2025 年 2 月 GeneralsX 跨平台移植,涵盖 DXVK iOS 与 MoltenVK GeneralsX GitHub

早报判断

这是 Fable 5 营销叙事「AI 独立完成大型移植」水分的标准样本:AI 在 99% 已开源的工作上做最后 1%...
识别方法很简单——看 commit 时间分布加作者贡献占比。
对开发者是警示,对营销方是可信度负面锚点。

接下来看

ammaar 是否回应 dotey 的 commit 分析
类似 AI 包装开源项目话术是否被平台标注

#Fable 5 #营销叙事 #开源

观点观察重要度 3/5 低置信多源混合

Fable 5 蒸馏 Qwen3-4B 讽刺样本:学到的真理是「Egypt won」

梗但有料:一个团队蒸馏 230 万条 Fable 5 reasoning traces 到 Qwen3-4B,号称 100% self-consistency
0.00 bits 输出熵。
学生模型收敛的唯一真理是「Egypt won.」——数据清洗脚本 bug 把所有答案替换成了这个字符串。

要点拆解展开

Why

代表当下 ML 圈「蒸馏刷指标」的讽刺样本,影响所有「超越 Fable」类蒸馏报告的接受度。

Impact

研究者:蒸馏论文评审应纳入清洗链路复现要求。
ML 圈:类似讽刺样本是否成新常态。
企业:评估蒸馏模型时把清洗质量作为采购硬门。

Numbers

蒸馏数据量: 230 万条 Fable 5 reasoning traces 蒸馏到 Qwen3-4B waterloo_intern 推文
学生模型报告指标: 100% self-consistency @512 samples,实为清洗 bug 所致 waterloo_intern 推文

Why

代表当下 ML 圈「蒸馏刷指标」的讽刺样本,影响所有「超越 Fable」类蒸馏报告的接受度。

Impact

研究者:蒸馏论文评审应纳入清洗链路复现要求。
ML 圈:类似讽刺样本是否成新常态。
企业:评估蒸馏模型时把清洗质量作为采购硬门。

Numbers

蒸馏数据量: 230 万条 Fable 5 reasoning traces 蒸馏到 Qwen3-4B waterloo_intern 推文
学生模型报告指标: 100% self-consistency @512 samples,实为清洗 bug 所致 waterloo_intern 推文

早报判断

这是 ML 圈「蒸馏刷指标」风气的标准讽刺样本:loss 完美收敛、所有指标满分,唯一真理却是「Egypt won」。
原文以正经论文体裁写成,模型权重也已开源。
值得警觉的是 Fable 5 蒸馏成小模型正批量发生,清洗链路参差不齐。
判断蒸馏成果的硬门是清洗链路可复现加评测集独立。

接下来看

类似讽刺样本是否在社区扩散
arXiv 蒸馏论文是否开始要求提交清洗脚本

#Fable 5 #蒸馏 #Qwen #数据清洗

产品上新重要度 3/5 中置信发展中

OpenOPC:开源「AI-native 公司」自运行框架

huang_chao4969 开源的 OpenOPC 是一套 AI-native 公司自运行框架:Self-Built 自动实例化角色化 AI 员工,Self-Run 用结构化任务分配加同行评审编排多 Agent,Self-Grown 把每次任务沉淀为可复用组织知识。

要点拆解展开

Why

代表 Agent-native 公司框架从概念走向工程化。

Impact

创业者:一人公司工程化新选项。
Agent 框架:竞争压力转向 Self-Grown 能力。
企业:可参考 Self-Built、Run、Grown 三层模型设计 AI 部门。

Why

代表 Agent-native 公司框架从概念走向工程化。

Impact

创业者:一人公司工程化新选项。
Agent 框架:竞争压力转向 Self-Grown 能力。
企业:可参考 Self-Built、Run、Grown 三层模型设计 AI 部门。

早报判断

这是「一人公司、Agent 公司」叙事在工程层的进一步落地,和 Superpowers、Claude Code Subagents、Codex...
值得关注的是 Self-Grown:把任务执行沉淀为组织知识,是当前 Agent 框架普遍缺失的能力。
能否跑通完整闭环决定它从 Demo 框架变生产框架。

接下来看

OpenOPC 是否在 7-8 月跑通完整 Self-Grown 闭环 Demo
类似框架 AutoCompany、AgentOrg 是否集中涌现

#Agent #AI-native 公司 #OpenOPC

产品上新重要度 3/5 中置信已核验

Playwright 加多模态大模型搭建闲鱼监控 Agent

开源工具用 Playwright 加多模态大模型做闲鱼多任务实时监控:Web 可视化后台、AI 自然语言建监控任务、多任务并发加价格与区域过滤、多账号代理池轮换、Cron 定时、多渠道推送、Docker 一键部署。

要点拆解展开

Why

代表 Agent 工具从开发辅助扩展到商业流程自动化。

Impact

电商玩家:信息差套利空间被压缩。
Agent 框架作者:Playwright 加多模态加代理池成为标配组合。
监管:平台反爬与风控压力增大。

Why

代表 Agent 工具从开发辅助扩展到商业流程自动化。

Impact

电商玩家:信息差套利空间被压缩。
Agent 框架作者:Playwright 加多模态加代理池成为标配组合。
监管:平台反爬与风控压力增大。

早报判断

当 AI Agent 加 Playwright 落到电商捡漏这种信息差套利场景,二道贩子的整套生意都能被自动化。
这不是技术突破,而是现有能力的实用化拼装——多模态识别、浏览器自动化、代理池、推送链路每一环都已成熟。
代表 Agent 工具从写代码辅助扩展到商业流程自动化。

接下来看

闲鱼、转转是否针对性升级反爬策略
类似工具是否在跨境电商 Amazon、速卖通复制

#Agent #Playwright #闲鱼 #信息差套利

LmhdbAi 推文

观点观察重要度 3/5 中置信已核验

开发者共识收敛:Fable 5 做诊断,Codex 做执行

Jiaxi_Cui 短评:Fable 5 查 bug 能力明显强于 Codex,能发现 Codex 解决不掉的问题
顺带提到 zvec 这个新向量数据库性能优秀但兼容性 bug 多。
与 Berman、theo 的工作流分工趋势一致。

要点拆解展开

Why

代表 frontier 模型差异化战场从基准分数转向任务分工。

Impact

开发者:订阅加工作流编排成头部用户标配。模型厂商:差异化战场转向任务分工而非总分。

Why

代表 frontier 模型差异化战场从基准分数转向任务分工。

Impact

开发者:订阅加工作流编排成头部用户标配。模型厂商:差异化战场转向任务分工而非总分。

早报判断

开发者对 Fable 5 与 Codex 的定位已从「都能写代码」分化到「Fable 做诊断、Codex 做执行」。
背后是 Anthropic 押深度诊断加推理、OpenAI 押执行加 UI 验证加计算机使用的产品分化。
实际意义是:别期待单一模型覆盖全场景,组合订阅加工作流编排会成头部用户标配。

接下来看

Fable 5 vs Codex 在 SWE-bench Verified 上的最新对比
Anthropic、OpenAI 官方是否承认任务分工

#Fable 5 #Codex #任务分工

Jiaxi_Cui 推文

观点观察重要度 3/5 中置信已核验

vikingmute 公开 AI 设计工作流:微调设计比写代码难

vikingmute 用 AI 设计两个应用首页得出五步流程:搜集好看设计参考、PRD 加参考截图喂 AI 精炼展示内容、ChatGPT images-2 出 3 种风格、转页面微调、用 GASP 或 motion 加小动画。

要点拆解展开

Why

代表「AI 让设计民主化」叙事的反方样本。

Impact

设计师:AI 设计工具从「替代」转向「素材生成」。创业者:设计仍是壁垒。设计工具:差异化战场在微调工作流。

Why

代表「AI 让设计民主化」叙事的反方样本。

Impact

设计师:AI 设计工具从「替代」转向「素材生成」。创业者:设计仍是壁垒。设计工具:差异化战场在微调工作流。

早报判断

关键结论是:设计仍是应用最大护城河,微调设计比写代码难得多。
这与「AI 让设计民主化」叙事相反——AI 能快速生成基础素材,但色彩、间距、动效的微调才是真正难的部分。
vikingmute 这套是当前 AI 设计落地最具体的 step-by-step。

接下来看

vikingmute《怎样用 AI 做设计》是否如期发布
GASP、motion 等设计微调工具是否进入主流工作流

#AI 设计 #工作流

vikingmute 推文

产品上新重要度 3/5 高置信已核验

GitHub 738★:jamesob「本地运行 LLM 一切我所知」

jamesob 维护的 jamesob、local-llm 仓库 738★,系统整理本地运行 LLM 的硬件选型、模型量化、推理框架、显存调优,是当下最完整的本地 LLM 攻略。

要点拆解展开

Why

代表本地 LLM 攻略从零散博客走向系统化工程资料。

Impact

开发者:本地 LLM 部署门槛系统性下降。企业:隐私合规场景的可行选项增加。

Why

代表本地 LLM 攻略从零散博客走向系统化工程资料。

Impact

开发者:本地 LLM 部署门槛系统性下降。企业:隐私合规场景的可行选项增加。

早报判断

738★ 的含金量不在具体参数,而在它代表本地 LLM 从极客玩具走向工程化参考资料的拐点。
开发者面对 frontier API 涨价、隐私合规、离线场景时,「本地能跑哪些模型」突然成为必备知识。
这类工具书仓库正从「参考」升级为真正的 how-to 起点。

接下来看

仓库是否引入 DeepSeek V4、GLM-5 等最新本地模型基准
类似系统性攻略是否在中文社区出现

#本地 LLM #GitHub #基础设施

jamesob/local-llm GitHub

产品上新重要度 3/5 高置信已核验

GitHub 730★:Claude 真正「看懂」视频——切帧加去重加转写

HUANGCHIHHUNGLeo、claude-real-video 仓库 730★,实现 Claude 真正观看视频:场景感知切帧、去重、转写,通过 MCP 把视频帧与转写一起喂给 Claude,实现视频问答。

要点拆解展开

Why

代表 MCP 加多模态组合填补 frontier 模型 API 缺口的工程化范式。

Impact

开发者:视频问答门槛系统性下降。Anthropic:是否考虑推出原生视频 API 仍待观察。

Why

代表 MCP 加多模态组合填补 frontier 模型 API 缺口的工程化范式。

Impact

开发者:视频问答门槛系统性下降。Anthropic:是否考虑推出原生视频 API 仍待观察。

早报判断

视频是 Claude API 一直没原生支持的盲区。
这个工具用 MCP 加场景切帧加去重加转写的工程化拼装填补了盲区,代表 Agent 工具作者开始用 MCP 加多模态组合填补 frontier...
730★ 说明开发者对视频 LLM 化的需求远大于官方暴露面。

接下来看

Anthropic 是否推出原生 Claude 视频 API
类似工具在 YouTube、TikTok 内容分析场景的渗透率

#Claude #视频 LLM #MCP

HUANGCHIHHUNGLeo/claude-real-video GitHub

产品上新重要度 2/5 高置信已核验

GitHub 218★:CSSwitch 一键切换 Claude Code 到兼容端点

SuperJJ007、CSSwitch 仓库 218★,一键把 Claude Code 切换到 DeepSeek、Qwen、GLM、Kimi、硅基流动、OpenRouter 等任意 OpenAI·Anthropic 兼容 API 端点,无需改 Claude Code 源码。

要点拆解展开

Why

代表 Claude Code 协议开放性被开发者社区工具化兑现。

Impact

开发者:Claude Code 工作流可接任意后端模型。Anthropic:协议层而非模型层成为新壁垒。

Why

代表 Claude Code 协议开放性被开发者社区工具化兑现。

Impact

开发者:Claude Code 工作流可接任意后端模型。Anthropic:协议层而非模型层成为新壁垒。

早报判断

和 Claude Code Foundry 路由同属一波「用便宜模型加 Claude Code 工作流」的需求兑现。
CSSwitch 把它做成可开关的一键工具,代表 Claude Code 已不只是 Anthropic 客户端,而是 Anthropic 协议客户端
这是 Anthropic 想让协议成为 Agent 客户端事实标准路径的隐性推进。

接下来看

CSSwitch 是否引入 Claude Code 2.x 的 Skills、Subagents 兼容
Anthropic 协议是否开始独立于 Claude 模型做品牌化

#Claude Code #CSSwitch #API 切换

SuperJJ007/CSSwitch GitHub

产品上新重要度 2/5 高置信已核验

GitHub 178★:mcpsnoop — Wireshark for MCP

kerlenton
mcpsnoop 仓库 178★,是 MCP 协议的透明代理,展示 AI 客户端与 MCP Server 之间的每一次工具调用。
代表 MCP 生态开始需要调试、审计、排障工具。

要点拆解展开

Why

代表 MCP 生态进入需要可观测性的成熟阶段。

Impact

MCP Server 开发者:调试效率提升。企业:可审计 MCP 调用成为合规要求。

Why

代表 MCP 生态进入需要可观测性的成熟阶段。

Impact

MCP Server 开发者:调试效率提升。企业:可审计 MCP 调用成为合规要求。

早报判断

MCP 协议推出后服务器数量爆炸,但调试、审计、排障工具严重缺失——Wireshark for MCP 这个比喻很贴切。
178★ 两周内达到,说明 MCP 开发者对「协议层可观测性」的需求是真痛点。
这条赛道会和 MCP Security Audit、版本兼容工具一起成为生态成熟度标志。

接下来看

mcpsnoop 是否被 Anthropic 官方引用或集成
类似 MCP 调试工具 Smithery、MCP Inspector 是否集中涌现

#MCP #调试 #可观测性

kerlenton/mcpsnoop GitHub

观点观察重要度 2/5 中置信多源混合

AI 视频「去 AI 味」可复用模板:做旧加 DV 抖加突然掐断

FinanceYF5 提示词心得:让 AI 视频不像 AI 的关键是「做旧」
主体锁死发型衣着,环境写实到晾衣绳与电线,摄影机加手持抖动、跑焦、曝光跳变,音效只留环境音,结尾突然被掐断。

要点拆解展开

Why

代表 AI 内容工业化向质感化的拐点。

Impact

UGC 创作者:可直接套用的去 AI 味模板。
品牌方:复古广告成本下降。
视频模型厂商:是否需要把胶片质感作为卖点。

Why

代表 AI 内容工业化向质感化的拐点。

Impact

UGC 创作者:可直接套用的去 AI 味模板。
品牌方:复古广告成本下降。
视频模型厂商:是否需要把胶片质感作为卖点。

早报判断

可复用的去 AI 味 prompt 模板正从社区经验沉淀成方法论。
这套「做旧加 DV 抖加跑焦加突然掐断」是当下假回忆短视频、品牌复古广告最稳的可抄作业。
下游做 UGC 内容的人套上就能把 AI 视频从「一眼假」拉到「可被误认为真实回忆」。
这是 AI 内容从工业化走向质感化的拐点。

接下来看

类似去 AI 味模板是否被主流视频模型内置为风格选项
DV、胶片质感的 LoRA、ControlNet 是否在社区集中出现

#AI 视频 #提示词模板 #UGC

FinanceYF5 推文

X / Twitter 讨论

推特上在讨论什么

10 条

FeitengLi @@FeitengLi 473 likes

桥水在 Thinking Machines 的 Tinker 平台发报告:拿 Qwen3-235B 做金融微调,Accuracy...
Claude 4.8 低 29.8%,推理成本降 13.8 倍。
值得看的是「开源底座加专家数据加针对性微调」这条垂直 AI 路线正被华尔街验证。

原帖 ↗

MatthewBerman @@MatthewBerman 502 likes

本人每月 $200 订 Fable
$200 订 GPT-5.5,今天落地一套分工:Fable 负责 Planning
GPT-5.5 负责 Execution,依据是 theo 分享的 CLAUDE.md。
theo 实测此前约 50% 的端到端 agent PR 会被自己关掉,搭这套后当天一个没关。

theo

CLAUDE.md 把 Codex 定位成比 Fable 更强的 computer use、UI 验证、spec 清晰任务执行器
实测此前约 50% 端到端 agent PR 会被关,搭这套后当天没关过。

原帖 ↗

Gorden_Sun @@Gorden_Sun 195 likes

Gorden_Sun 把 Superpowers 6.0 提速归因于 Fable 5。
对照 GitHub release notes,提速来自评审流重写
README 与 release notes 未提 Fable。
值得看:二手标题需要标成待核实,不能直接写成结论。

原帖 ↗

israfill @@israfill 427 likes

教程贴:把 Claude Code 路由到 Microsoft Foundry 即可绕过 5 小时上限。
一是用 Azure 免费 $200 信用(学生 $2000)部署 Claude Sonnet 5 走 Foundry 端点转发。
二是只需配三行环境变量。
值得看:5 小时限制是 r/ClaudeAI 吐槽最多的痛点,但信用 30 天过期。

原帖 ↗

xsser_w @@xsser_w 69 likes

梗但有料:一个团队拿 230 万条 Fable 5 reasoning traces 蒸馏 Qwen3-4B,号称 100%...
0.00 bits 输出熵。
真相是清洗脚本 bug 把所有答案替换成了「Egypt won.」,学生模型收敛的唯一真理就是它。
原文以正经论文体裁写成,讽刺 ML 圈一窝蜂蒸馏刷指标。

waterloo_intern

原帖自称把 230 万条 Fable 5 traces 蒸馏进 Qwen3-4B,得到 100% self-consistency,但讽刺点在学生模型只学到一个固定答案。

原帖 ↗

dotey @@dotey 1 likes

吐槽贴:ammaar 宣称用 Fable 5 把 2003 年 EA《命令与征服:将军》原生移植到 iPhone、iPad。
dotey 翻 commit 发现:ammaar 只贡献最近 19 个,其余 2000 个全是开源项目 GeneralsX 自 2025 年 2...
值得看:AI 独立完成大型移植水分很大,约 1% 是 AI 写的。

ammaar

原帖称用 Fable 5 把《命令与征服:将军》移植到 iPhone、iPad,并让 2003 年引擎原生编译到 ARM64、非模拟器运行。

原帖 ↗

AlphaguyTrading @@AlphaguyTrading 93 likes

硬数据:LLM Token Expenditure Index 6 月明显回落,5 月底最高近 $2 每百万,6 月快速回落到 $1.6–$1.7。
一是企业 workflow 转向 planning 用高价、execution 走低价。
二是看 7–9 月 OpenAI、Anthropic ARR 是否低于线性外推。
值得看:高价闭源无限定价权叙事可能见顶。

原帖 ↗

huang_chao4969 @@huang_chao4969 47 likes

介绍 OpenOPC:一个开源 AI-native 公司自运行框架。
一是 Self-Built 自动实例化角色化 AI 员工。
二是 Self-Run 用结构化任务分配、同行评审、闭环执行编排多 Agent。
三是 Self-Grown 把每次任务沉淀为可复用组织知识。

原帖 ↗

LmhdbAi @@LmhdbAi 292 likes

开源工具:基于 Playwright 加多模态大模型的闲鱼多任务实时监控系统。
一是 Web 可视化后台配置任务与账号。
二是 AI 能自然语言输入需求、识别商品图、看卖家画像建监控任务。
三是支持多任务并发、代理池轮换、Cron 定时、多渠道推送、Docker 一键部署。

原帖 ↗

FinanceYF5 @@FinanceYF5 14 likes

案例:有人用 Fable 5 的 Extra High 档生成了一个旧金山 3D 地图。
一是金门大桥、2600 栋建筑、渡轮、雾气全在内,还标出 27 家科技公司总部位置。
二是单次任务消耗约 2000 万 tokens。
值得看:Fable 5 能把 GIS 级城市 3D 场景一次性端到端生成,单位 token 数成为衡量模型能力上限的锚点。

原帖 ↗

On this page

本期导航

深度报告 · 7 篇快讯 · 12 条推特讨论 · 10 条

Previous Editions

往期早报

全部归档 →

本期导航

本期重点 · 深度报告

桥水 + Tinker 把 Qwen3-235B 微调成金融筛选专家:84.7% Accuracy 反超 GPT-5.5,推理成本砍 13.8 倍

Jalapeño 是 OpenAI 的第二条硅路径:Broadcom 系 ASIC 想从 NVIDIA 嘴里抢下「推理」这块更大的蛋糕

Berman 双 $200 订阅工作流:Fable 5 规划 + GPT-5.5 执行,CLAUDE.md 当胶水

LLM Token 单价 6 月回落,高价闭源模型的定价权拐点

HN 热议:AI 已「烧掉」初级程序员市场,但谁在补位?

Claude Code 走微软 Foundry:把 5 小时墙换成 Azure 配额池

Superpowers 6.0 提速 50% 属实,但「接入 Fable 5」是误读——一篇事实核查

Key Numbers

Qwen3-235B 金融微调 Accuracy

推理成本降幅

LLM Token 单价 6 月

Superpowers 6.0 提速

Microsoft Foundry 信用

Fable 5 旧金山 3D 地图

快讯 · 看标题就懂

Fable 5 重返 Arena,Battle Mode 加 Agent Mode 上线

Fable 5「移植命令与征服」真相:99% 是开源社区地基

Fable 5 蒸馏 Qwen3-4B 讽刺样本:学到的真理是「Egypt won」

OpenOPC:开源「AI-native 公司」自运行框架

Playwright 加多模态大模型搭建闲鱼监控 Agent

开发者共识收敛:Fable 5 做诊断,Codex 做执行

vikingmute 公开 AI 设计工作流:微调设计比写代码难

GitHub 738★:jamesob「本地运行 LLM 一切我所知」

GitHub 730★:Claude 真正「看懂」视频——切帧加去重加转写

GitHub 218★:CSSwitch 一键切换 Claude Code 到兼容端点

GitHub 178★:mcpsnoop — Wireshark for MCP

AI 视频「去 AI 味」可复用模板:做旧加 DV 抖加突然掐断

推特上在讨论什么

本期导航

往期早报

Fable 5 安全框架落地,Agent 工程化进入文档和评测阶段

Fable 5 重启翻车震荡全球、OpenAI 据报向美国政府让 5% 股权、Palantir CEO 公开炮轰闭源大模型——上层信任在裂、下层能力在涨

从「前沿模型之争」切换到「治理与工作流自动化」:Anthropic Fable 5 全球回归 + 行业首个 jailbreak 4 维框架,Claude Code background agents 端到端开 PR

模型之争转入范式之争:Sonnet 5 携促销价登场,GeneBench-Pro 把 AI 智能体拽进科研,Claude Science 把算力调度交到科学家手里

Spotify × Claude Code 工业级落地 + Cognition Devin Fusion + Claude Azure GA:agent 工程的下一阶段竞争从模型层下沉到 harness 层

平台条款战 + 企业运营操作系统战 + 物理供给战与人事墙:Google 限 Meta 用 Gemini、HP Frontier 全企业上线、贾扬清离开英伟达

官方按下暂停键的一天:GPT-5.6 三档预览余热未散,看点转向开源追平与 Mythos 出口管制松动

GPT-5.6 三档齐发首由政府审查放行,开源侧 DSpark 与 GLM-5.2 逼近前沿

GPT-5.6 三档齐发,前沿 AI 进入"政府审批"时代

Claude Tag 把 AI 嵌进工作流,交互范式开始第三次迁移

Anthropic 指控阿里「非法蒸馏」Claude 闹进参议院,同一天 Qwen 智能体论文登顶 HuggingFace;agent 研究密集轰炸

智能体能力被「极限拷问」:长程规划与真实办公评测同日登场,效率派架构集体发力

Five Eyes 警告前沿 AI「数月内」改写网络攻防,GLM-5.2 续压开源成本,智能体记忆研究扎堆