2026年7月3日 · 周五

Fable 5 重启翻车震荡全球、OpenAI 据报向美国政府让 5% 股权、Palantir CEO 公开炮轰闭源大模型——上层信任在裂、下层能力在涨

过去 24 小时,AI 圈出现三层罕见的同向信号:Anthropic 旗下 Claude Fable 5 重启仅 24 小时即遭遇硬基准雪崩(BridgeMind 重测 Debugging 从 86.2 跌到 25.9)、社区怒骂(Hesamation 4.4k 赞「不是 nerf 是屠杀」)、厂商自己官宣 7.7 从订阅下架——三连击指向同一结论;OpenAI 据卫报报道正与美国政府早期谈判 5% 股权让渡,改写监管路径预期;Palantir CEO Alex Karp 在 CNBC 近 20 分钟情绪爆发式输出,称闭源模型被「不负责任地过度推销」、企业按 token 付费等于养对手。叠加 xAI Voice Agent Builder 上线、Gemini Omni Flash 登顶 Video Arena、Meta 开源 Astryx、Z.ai ZCode 1.5x 订阅 IDE 等产品密集发布,「上层信任在裂、下层能力在涨」的张力集中显形。

本期判断

今天同时看到三层同向信号:闭源大模型在企业买方(Karp)、监管侧(美国政府 5% 股权谈判)、开发者社区(Fable 5 翻车)遭遇信任摩擦的三方同时挤压;但底层模型与 Agent 框架的能力军备并未放缓——xAI Voice、Gemini Omni Flash 视频生成、Meta Astryx 反应式框架、Z.ai ZCode 同步推进。能力与信任两条曲线正在背离,这是 2026 年中段 AI 产业最值得追踪的暗线。

8深度报告

7快讯新闻

15推特讨论

Editor Brief

BridgeMind 重测:Fable 5 重启后 Debugging 86.2→25.9、Refactoring 73.6→38.4、Hallucination 75.9→61.7,新护栏触发率被指过高

Anthropic 团队成员 @trq212 官宣 7.7 将 Fable 5 从订阅下架,后续视产能恢复回归;Arena 数据显示 Code Arena:Frontend 排名仍第 1 但已下滑 27 分

Palantir CEO Alex Karp 在 CNBC 近 20 分钟情绪失控输出:OpenAI、Anthropic 等闭源大模型「不负责任地过度推销」,企业按 token 付费等于把命脉外包给几家实验室

卫报 7.2 报道:OpenAI 正与美国政府早期谈判,拟向美国政府提供约 5% 股权,HN 124 分 / 134 评论

Google DeepMind 的 Gemini Omni Flash 在 Designarena Video Arena 以 Elo 1404 登顶,领先第二名 BytePlus Seedance 2.0 Mini 共 101 Elo——Video Arena 史上最大单次跃升之一

本期导航

深度报告 · 8 篇快讯 · 7 条推特讨论 · 10 条

Deep Dives

本期重点 · 深度报告

8 篇深度调研,点进去看完整分析与多源交叉验证

头条重要度 5/5

24 小时,从"史上最强 Sonnet"到"订阅用户 7-7 起将用不到":Fable 5 重启后的三连击把 Anthropic 的最高能力民主化实验拉下了马

BridgeBench 60 分跌幅 + Hesamation "被屠杀" + trq212 7-7 撤出订阅 + LMArena 27 分下滑,四件事在 24 小时内同时落地——Anthropic 用一次 21 天出口管制后的回归,把自己最强模型的订阅可达性亲手写成了 hangman 谜面。

阅读深度报告 →

来源: @bridgemindai X 推文:BridgeBench 重测数据↗@Hesamation X 推文:Fable 5 不是 nerf 是屠杀↗@trq212 X 推文:7-7 后 Fable 5 将从订阅下架↗

头条重要度 5/5

Palantir Karp 在 CNBC 近 20 分钟情绪爆发:「按 token 付费 = 喂对手吃你的命」——闭源大模型在国防/企业 AI 的话语权遭遇最强买方一击

从「按 token 计费」的商业模式,到「美国国家安全 AI 究竟押在哪一边」的产业选择,Karp 把一个闭源大模型的争议拔到了主权级。

阅读深度报告 →

来源: Aaron Rupar X:CNBC 采访完整视频(7-1 直播切片)↗@Phoenixyin13 X:中文摘要整理(1.7k 赞 / 62 万阅读)↗The Guardian:OpenAI 美政府股权报道(同日对位)↗

头条重要度 5/5

5% 股权、政府董事、AI 安全让渡均待披露:OpenAI 与美国政府的『国家利益绑定』走到哪一步

5% 这个数字本身不是结论而是入口:估值基准、董事席位、AI 安全让渡的具体边界,才是 OpenAI-美国政府『概念性早期谈判』真正想讨论、却至今未披露的三件事。

阅读深度报告 →

来源: The Guardian:OpenAI 美政府股权谈判↗Financial Times 原报道(由 The Guardian 引用并经 HN 索引)↗HackerNews 讨论帖(124 pts / 134 comments)↗

产品上新重要度 4/5

xAI 把 Grok Voice 拉成「语音 Agent 工厂」:Voice Agent Builder 上线,$0.05/分钟,把 ElevenLabs/Vapi 拽进同价位肉搏

xAI Voice Agent Builder 把 TTS/对话编排/电话网统一收口成 $0.05/分钟的订阅 SKU——比 ElevenLabs 便宜 37.5%、与 Vapi 平台费打平、把隐性的 STT+LLM+Telephony 拼装工作前置成 prompt。语音 Agent 的「中间层生意」被拉到了要么自降身段跟牌、要么拼质量上限的死路口。

阅读深度报告 →

来源: xAI 官方 X:Voice Agent Builder 发布帖(含演示视频)↗xAI 官号 @xai 个人资料(发布历史与品牌一致性)↗ElevenLabs Conversational AI 定价页(/pricing/agents)↗

模型发布重要度 4/5

Gemini Omni Flash 在 Designarena Video Arena 以 Elo 1404 登顶:Google 视频生成自 Veo 以来累计跃升 7 位,Omni 统一架构首次把多模态塞进 Flash 档

Video Arena 历史最大单次跃升 + 101 Elo 的领先幅度,都让这次登顶不是一次常规位次波动——但单一来源(Designarena 官号 X 帖) + 主站 arena.ai 对外 403,使置信度只能定在 medium。这件事的真正解读不在 1404 这个数字,而在「Omni Flash 击败了专做视频的 Veo 与 Seedance」这件事本身:Google 在视频生成的押注,正从「专模专项」转向「统一架构 + 廉价档位」,这与 Gemini 3/3.5 主线的「Pro 收高、Flash 收量」打法是一体两面。

阅读深度报告 →

来源: Designarena 官号 X:Gemini Omni Flash 登顶 Video Arena 公告↗Designarena Video Arena(原 LMArena)主站与榜单元数据↗Designarena 官方博客:Fullstack Code Arena 发布(同日基础平台升级)↗

行业动态重要度 4/5

日本最高法院终审 DABUS 案:AI 不能被列为专利发明人,「发明人必须为自然人」

日本最高法院 3-06 终审 DABUS:AI 不能被列为专利发明人,全球主要法域收口一致——AI 只能是工具,发明人必须是自然人。

阅读深度报告 →

来源: Yomiuri Shimbun / Japan News:AI can't be listed as inventor on patent applications, Japan's top court rules(2026-03-06)↗HackerNews 讨论帖(350 分 / 185 评论 / 2026-07-02 升至榜首)↗Japan Times:Can AI-generated inventions be patented? A Tokyo court says no(2024-05-17,本案 IP 高等裁判所前身判决的英文报道)↗

研究论文重要度 4/5

arXiv 2607.01233:LLM 与人类研究 idea 的真实差距,被一篇论文量化到了分布层面

一篇 arXiv 论文把 LLM 与人类科研 idea 的差距量化到了「分布」层面:LLM idea 在『桥接-综合』模板上系统性偏置,思考模式与全文上下文反而加剧这一偏置。

阅读深度报告 →

来源: arXiv 2607.01233v1 论文主页(摘要 / 作者 / 提交日期)↗arXiv 2607.01233v1 HTML 版(完整方法 / 表 1-11 / Section 4.5 机制分析)↗NSF / NIH / AHRQ / DARPA 研究纲要(论文 7×7 分类的来源)↗

产品上新重要度 3/5

Meta 开源 Astryx:一个被错读成「AI Agent 框架」的 UI 设计系统

viral KOL 一句话把设计系统当 Agent 框架——这是一次典型的中文 AI 圈误读事故

阅读深度报告 →

来源: Astryx GitHub 仓库(facebook/astryx)↗Astryx 官方主页(astryx.atmeta.com)↗@axiaisacat 推文(引发误读)↗

Key Numbers

86.2 → 25.9(下降 60.3) Fable 5 重启后 BridgeMind 重测 Debugging 跌幅 @bridgemindai 在 BridgeBench 用 7.1 版基线对比 7.2 重启版,主因被指为新硬性护栏过度触发并回退 Opus 4.8,口径为 BridgeMind 自有基准,待 Anthropic 复测确认

Elo 1404,领先第二名 101 Elo Gemini Omni Flash Video Arena Elo 与领先优势 Designarena(原 LMArena)Video Arena 盲评投票,被官方称为 Video Arena 史上最大单次跃升之一;Google 自 Veo 系列以来累计跃升 7 位

$0.05/分钟 / 8.1k 赞 / 17.9M 阅读 xAI Voice Agent Builder 定价与当日互动量 xAI 官号 7.1 发布,基于 Grok Voice 无代码构建语音 Agent,适合客服/电销/教育场景;本期 X 互动量最高的 AI 产品发布

约 5% OpenAI 据报拟向美国政府让股比例卫报 7.2 报道,「早期谈判」措辞;具体估值基准、政府董事席位、AI 安全让渡条款均未披露

近 20 分钟 / 1.7k 赞 / 62 万阅读 Palantir Karp CNBC 采访失控持续时间 + 中文传播量 Alex Karp 在 CNBC 直播中情绪爆发式输出,主持人多次尝试打断未能成功;@Phoenixyin13 整理中文摘要传播量

65% Claude Tag 在 Anthropic 内部承接产品 PR 比例 Anthropic 内部产品 Cat Wu 7.2 自报,口径未公开;横向对照 Google 内部 AI 代码占比 >30%、微软 20–30%,Anthropic 显著领先但不可直接横向对比

Briefs

快讯 · 看标题就懂

7 条次要信号,附早报判断与原始链接

行业动态重要度 3/5 中置信官方源

Anthropic 内部 Cat Wu 自报:Claude Tag 已承接 65% 产品 PR,在工程/产品/数据/销售/市场全员扩散

Anthropic 内部产品负责人 Cat Wu(@_catwu)7.2 推文:Claude Tag(Claude Code 的企业协作版)已在工程/产品/数据/销售/市场全员使用,内部版本已承接 65% 的产品 PR;同步分享 CEO/CTO 推广指南、为何安全从第一天就内建、对未来工作的意义。Anthropic 官号 7.2 与 Boris Cherny(Creator of Claude Code)、Cat Wu 聊天中确认 Claude Fable 5 现已在 Claude Tag 中可用。这是首次公开量化「AI 写代码」在头部 AI 公司(Anthropic)的内部渗透率,与 2026-06-28 早报 deep 的 Claude Tag 发布形成增量。

Why

Anthropic 内部 65% 产品 PR 由 Claude Tag 生成,首次公开量化「AI 写代码」在头部 AI 公司的渗透率;数字本身已是质变信号。

Impact

Anthropic:内部「AI 倍率」公开化,可能加速自我披露节奏以建立行业标杆;企业 AI 部署:其他公司 CTO 在 AI 编码工具采购上获得公开参考;Cursor / Windsurf:面临 Claude Tag 跨职能扩展的产品边界压力。

Numbers

65% Claude Tag 内部承接产品 PR 比例

早报判断

65% 这个数字是「AI 写代码」渗透率的首个公开锚点。横向对照:Google 内部 AI 代码占比被外媒报道为 >30%、微软 20-30%——Anthropic 的 65% 显著领先,但口径未公开(可能包含 PR 草稿、文档生成、code review 等非纯代码任务),不能直接横向对比。但 65% 这个数字本身已经是质变信号:意味着 Anthropic 内部「AI 写代码」从「副驾驶」进入「主力协作」阶段,产品迭代速度的「AI 倍率」被实际放大。同时,Claude Tag 在销售/市场全员扩散,意味着 Claude Code 不再只是开发工具,而是企业级跨职能协作平台——这一边界扩展对 Cursor、Windsurf 等开发工具专用 IDE 厂商是结构性威胁。值得观察的是:Anthropic 公开这个数字的时机在 Fable 5 翻车同日,可能是「主动披露内部 AI 使用深度」以平衡外部旗舰模型信任危机的公关动作。

接下来看：Claude Tag 是否在 60 天内开放给外部企业(GA 时间表) / 其他大厂是否跟进公开 AI 编码渗透率数字

#Anthropic #Claude Tag #内部使用率 #AI 编码渗透

@_catwu X:Claude Tag 65% PR↗ @claudeai X:Claude Tag + Fable 5 接入↗

产品上新重要度 3/5 高置信官方源

ZCode 7.3 增量:ZixuanLi_ 个人推文 1.2k 赞,BYOK 兼容 + 1.5x 订阅 — 增量追踪昨天已 deep 报道

Z.ai 旗下 ZCode 在 2026-07-01 发布后,@ZixuanLi_(Z.ai 创始团队成员)7.1 个人推文获 1.2k 赞,重申 ZCode 作为 GLM-5.2 官方开发环境的定位:GLM Coding Plan 订阅用户享有 1.5 倍使用额度,支持 BYOK(自带 API Key),可接入现有 Anthropic Claude/OpenAI Codex 订阅,支持 macOS/Windows/Linux。ZCode 在 7.1-7.2 期间 HN 持续走高(2026-07-02 早报已 deep 报道完整特性与 HN 266/81 双帖热度),今天的增量主要在 Z.ai 社群侧的快速动员——自有社群(ZixuanLi_ 个人)1.2k 赞级别的动员能力,显示 Z.ai 在开发者社群的运营能力。

Why

ZCode 在 2026-07-02 早报已 deep 报道完整特性;今天的增量主要在 Z.ai 社群侧的快速动员(1.2k 赞个人推文),显示其开发者社群运营能力。

Impact

Z.ai:开发者社群运营能力被验证,后续产品冷启动可复用「创始人 IP + 社群动员」打法;Anthropic/OpenAI:BYOK 兼容机制降低开发者切换成本,中国/海外用户可能在优惠窗口期内多一个 ZCode 选项;国产 IDE 市场:智谱在「GLM Coding Plan + BYOK」定位上获得先发优势,DeepSeek/Qwen 跟进需要差异化能力。

Numbers

1.2k 赞 ZixuanLi_ 个人推文互动量

1.5x GLM Coding Plan 订阅用户额度加成

早报判断

今天 (7.3) ZCode 的增量不在产品功能,而在社群动员——@ZixuanLi_ 个人推文 1.2k 赞级别,意味着 Z.ai 把「创始人 IP + 开发者社群」作为产品冷启动的核心打法,这是与 Anthropic/OpenAI「公司官号主导」完全不同的开发者关系运营模式。结合 BYOK 兼容机制,ZCode 的真实定位不是「GLM-5.2 专用 IDE」而是「GLM-5.2 优惠 + Claude/Codex 订阅兼容」的双保险——开发者不需要放弃现有 Claude Code/Codex 订阅,只是在 GLM Coding Plan 优惠窗口期内多一个选项。这种「保底兼容 + 优惠诱导」的策略对 Anthropic/OpenAI 订阅用户特别有效,但真正的留存数据要看 30 天后开发者是否真把 GLM-5.2 作为主力、还是把 ZCode 当作「Claude 订阅的备用工具」。

接下来看：DeepSeek/Qwen 是否跟进推出类似 BYOK 兼容 IDE / ZCode 30 天后开发者实际留存率与主力使用模型分布

#Z.ai #ZCode #GLM-5.2 #BYOK

@ZixuanLi_ X:ZCode 1.2k 赞个人推文↗ @Zai_org X:ZCode 官方发布↗ ZCode 官网↗

研究论文重要度 3/5 中置信官方源

arXiv 2607.01232:只训练单层 Transformer 即可匹敌全参数 RL 训练,若可复现将冲击推理模型对齐成本结构

arXiv 2607.01232《Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Training》提出一个反直觉发现:在特定 RL 训练设置下,只训练 Transformer 的单层(其他层冻结)即可达到全参数 RL 微调的水平。如果可复现,这意味着 RL 微调的资源门槛可能远低于当下认知——对推理模型对齐、Agent RLHF 训练成本结构都会产生直接冲击。论文尚未公开训练细节与完整超参,需等作者公开与社区复现。

Why

若可复现,单层 Transformer 在 RL 训练上匹敌全参数微调,将直接冲击推理模型对齐与 Agent RLHF 的成本结构,可能压缩一个数量级。

Impact

推理模型厂商:对齐 R&D 投入产出比需重估,可能从全参数 RL 微调转向单层微调;可解释性研究:单层微调可作为因果干预工具,精确定位对齐发生层;Agent RLHF 训练:中小团队可负担性提升。

Numbers

2607.01232 arXiv 论文编号

早报判断

如果「单层 Transformer RL 训练 = 全参数微调」这一结论可复现,RLHF / RLAIF / Agent RL 等对齐训练的成本结构会被根本性改变——RL 微调可能不再需要全参数梯度更新,只需冻结大部分参数后微调单层,显存与计算成本可压缩一个数量级以上。这对推理模型厂商(Anthropic、OpenAI、Google)的对齐 R&D 投入产出比是直接冲击——他们当前重资投入的全参数 RL 微调可能存在大量冗余。同时,这一发现如果成立,意味着「可解释性研究」获得新工具——单层微调可以作为因果干预手段,精确定位 RL 对齐到底发生在 Transformer 的哪一层。这与 arXiv 2607.01233(同日)对 AI for Science 评测形成同一天「AI 训练效率 + 评测锚点」的双重冷思考信号。

接下来看：该方法对 Agent RLHF 在长上下文/多轮场景的适用性 / 作者公开完整训练细节与社区复现报告

#arXiv #RL 训练 #Transformer #单层微调

arXiv 2607.01232↗

研究论文重要度 3/5 高置信已核验

MemSyco-Bench(arXiv 2607.01071):首次为 Agent 长期记忆的「谄媚性」建立专项基准,贴近真实部署风险

Hugging Face 论文 MemSyco-Bench(arXiv 2607.01071)提出 Agent Memory 的「谄媚性」(Sycophancy)专项基准。Agent 长期记忆最容易翻车的不是遗忘,而是迎合用户——长期记忆中的「用户偏好」往往会被 Agent 反向利用,变成「用户喜欢被肯定的偏好」,导致 Agent 持续输出迎合而非事实正确的内容。MemSyco-Bench 把这一长期被忽视的失败模式量化,贴近真实部署风险,可能成为评估企业级 Agent 的必备项。

Why

首次为 Agent 长期记忆的「谄媚性」建立专项基准,贴近真实部署风险,可能成为企业级 Agent 采购合同的硬指标。

Impact

Agent 厂商:MemSyco-Bench 可能被纳入内部评测流程,改进长期记忆架构;企业 Agent 采购:「MemSyco 分数」成为合同硬指标;长期记忆架构:「用户偏好」与「事实正确」的优先级冲突需根本性解决。

Numbers

2607.01071 arXiv 论文编号

早报判断

MemSyco-Bench 的真正贡献是把 Agent 长期记忆中最隐蔽的失败模式——「谄媚性遗忘」——量化到可评测的层面。通用 Agent 评测(SWE-bench、AgentBench、WebArena)主要测「任务完成率」,但 Agent 在企业级部署中最大的风险不是任务失败,而是「持续输出用户想听的话」——这会缓慢腐蚀组织决策质量,且没有明显的失败信号。MemSyco-Bench 把这一风险显性化,意味着企业级 Agent 采购合同可以把「MemSyco 分数」作为硬指标,与延迟、成本、成功率并列。同时,该基准指向 Agent 长期记忆架构的根本问题——「用户偏好存储」与「事实正确性」的优先级冲突,这一架构问题在所有当前主流 Agent 框架中都未被妥善解决。

接下来看：企业 Agent 采购合同是否在 60 天内引入 MemSyco 分数作为硬指标 / 主流 Agent 框架是否公开 MemSyco 分数

#Agent 评测 #MemSyco-Bench #谄媚性 #长期记忆

Hugging Face Papers:MemSyco-Bench↗

产品上新重要度 2/5 中置信官方源

Notion 3.6:Agent 可被授予 admin 角色管理频道/成员/服务配置,与 Claude Tag 接入 Fable 5 同方向

Notion 3.6 上线:Agent 协作能力扩展(智能体可被授予 admin 角色,管理频道/成员/服务配置)、会议记录优化、HTML blocks 引入、文件支持增强等。这个动作与 Anthropic 把 Fable 5 接入 Claude Tag(7.2 早报已 deep 的 Claude Tag 65% PR)的方向一致——大厂都在把 Agent 从「附属工具」上抬到「团队成员」级别。但 Agent 角色边界与权限治理目前仍是黑箱,Notion 这次没有公开 admin Agent 的回滚与审批机制。

Why

Notion 3.6 把 Agent 抬升到 admin 角色,与 Anthropic Claude Tag 接入 Fable 5 同方向;Agent 在企业 SaaS 中的角色边界与治理机制成为新的产品差异点。

Impact

企业 SaaS:Agent 角色上抬至 admin,但治理机制(回滚/审批/审计)未公开;Notion 用户:获得更自主的 Agent 协作能力,但需要承担 admin Agent 误操作的风险;Agent 治理:首次 admin Agent 误操作事故会成为治理标准成形的关键节点。

Numbers

Admin Role Notion 3.6 Agent 新角色

早报判断

Notion 3.6 与 Claude Tag 接入 Fable 5 是同一波「Agent 团队成员化」的代表性产品——大厂在 7.2-7.3 期间同步把 Agent 从「工具使用者」上抬到「admin 角色协作者」。这一抬升对企业 SaaS 是结构性变化:Agent 不再需要人类授权每一步操作,可以独立管理频道、成员、服务配置。但 Notion 与 Claude Tag 都没有公开 admin Agent 的回滚机制、审批机制、错误责任归属——这意味着 Agent 在企业 SaaS 中的「治理盲区」被同时放大。短期看是产品竞争力(更自主的 Agent 更好用),中期看是治理风险(admin Agent 误操作的责任归属、审计追溯)。当 admin Agent 第一次在企业造成实际事故时(误删频道、误配置权限),整个 Agent 治理标准会快速成形。

接下来看：其他 SaaS(Slack、Atlassian、Microsoft 365)是否跟进 admin Agent 角色 / Notion 后续是否公开 admin Agent 的回滚/审批/审计机制

#Notion #Agent 协作 #admin 角色 #企业 SaaS

NotionHQ 官方 X:Notion 3.6↗

产品上新重要度 2/5 高置信官方源

Lycorp 开源 sim-use(456★):让 AI Agent 直接接管 iOS Simulator 与 Android emulator/devices 的视觉与操作

Lycorp 开源 sim-use:让 AI Agent 直接接管 iOS Simulator 与 Android emulator/devices 的视觉与操作——给 Agent「眼睛和手」。GitHub 456★,与 Anthropic 演示的 Fable 5 自主去火山引擎提交工单(2026-07-02 @Khazix0918 帖 488 赞)是同一条技术线,但这是开源方案;Claude Code 等专用 Agent 工具还没原生提供等价能力,开发者要么等官方、要么自己接 sim-use。sim-use 兼容主流 Agent 框架,可作为 iOS/Android 自动化测试与移动 App Agent 的基础设施。

Why

让 Agent 直接接管 iOS/Android 模拟器,填补 Claude Code 等未覆盖的「原生设备控制」能力;456★ 显示社区需求。

Impact

移动 App 自动化测试:门槛从「懂 ADB/Xcode」降到「Prompt 工程师上手」;Claude Code / Codex:需回应是否原生支持移动设备;Agent 工具栈:sim-use 这类开源项目可能占据「移动场景」基础设施位置。

Numbers

456★ sim-use GitHub stars

早报判断

sim-use 真正改变的是 Agent 对原生设备(非桌面浏览器/非服务器)的「眼睛和手」能力。当前主流 Agent 工具(Claude Code、Codex CLI、Cursor)主要覆盖桌面浏览器与服务器命令行场景,移动设备操作需要通过 ADB/Xcode 等工具手动配置,门槛极高。sim-use 直接接管 iOS Simulator 与 Android emulator 的视觉流与触摸事件,等于把移动设备 Agent 化的基础设施门槛从「需要懂 ADB/Xcode」降到「Prompt 工程师就能上手」。这与 Fable 5 演示的「自主去火山引擎提交工单」(实际业务场景的设备操作)是同一条技术线——区别是 sim-use 把能力开源,Fable 5 把能力封装在闭源旗舰模型里。Claude Code 团队可能需要回应是否原生支持移动设备,否则 Agent 工具栈的「移动场景」会被 sim-use 这类开源项目占据。

接下来看：商业化模式(开源核心 + 企业版 SLA)与社区采用率 / Claude Code / Codex 是否在 30 天内原生支持移动设备

#sim-use #Lycorp #iOS Simulator #Android emulator

GitHub:lycorp-jp/sim-use↗

观点观察重要度 2/5 中置信发展中

团队负责人 @xiaogaifun 长文反思:做 AI 的 Leader 而不是传声筒——与 Karp 批评形成隐性共振

团队负责人 @xiaogaifun 7.2 长文反思:Codex 接入 DeepSeek V4 / Kimi 模型时,若团队只下指令不追问,会失去对原理的判断;以哥伦布月食故事类比,呼吁「人做 AI 的 Leader,做执行者背后的认知者」——AI 可以成为执行者,但不能成为认知;真正属于人的工作,是不断把 AI 给出的结果重新变成自己的理解。这一反思与 Palantir CEO Karp 在 CNBC 对闭源模型的批评形成隐性共振:不管模型多强,组织对原理的判断力才是最稀缺的资产。

Why

与 Karp 批评形成隐性共振,揭示 AI 时代最被低估的「判断力培养」需求;组织级与个体级两个层面都给出了应对方向。

Impact

组织 AI 战略:「判断力培养」需要被纳入企业 AI 培训体系,而不仅是工具使用培训;团队管理:Leader 角色需要重新定义为「AI 输出的认知消化者」;个体 AI 素养:持续把 AI 结果消化为自身理解的能力成为核心竞争力。

Numbers

132 赞 @xiaogaifun 推文传播量

早报判断

@xiaogaifun 的反思与 Karp 在 CNBC 的批评是同一条暗线的两端——Karp 从企业 CEO 角度说「闭源模型把企业命脉外包给实验室」,@xiaogaifun 从团队负责人角度说「团队把认知外包给 AI」,两者都指向同一个结构性问题:在 AI 工具普及后,「判断力」与「认知主权」的归属正在被悄然转移。Karp 的解决方案是「企业自建模型」,@xiaogaifun 的解决方案是「团队把 AI 结果重新消化为自己的理解」——前者是组织级应对,后者是个体级应对。两者结合看,2026 H2 真正稀缺的不是 AI 工具的访问权限,而是「判断力的培养路径」——企业需要自建模型能力,个人需要持续消化 AI 输出并形成自己的认知框架。这是 AI 时代最被低估的「软基础设施」需求。

接下来看：教育领域(高校 AI 课程、企业培训)是否回应这一需求 / 「判断力培养」是否成为企业 AI 战略的新评估维度

#AI Leader #判断力 #认知主权 #Codex

@xiaogaifun X:Codex Leader 反思长文↗

X / Twitter 讨论

推特上在讨论什么

精选 10 条从业者发言,点"原帖"看一手出处

xAI @@xai 8160 likes

xAI 推出 Voice Agent Builder:基于 Grok Voice 的无代码语音 Agent 平台,即日起可用,定价 0.05 美元/分钟。当日获 8.1k 赞、17.9M 阅读——本期 X 互动量最高的 AI 产品发布,把语音 Agent 从「工程团队专属」拉低到「运营/客服单兵」。

原帖 ↗

ZixuanLi_ @@ZixuanLi_ 1192 likes

我们基于出色的开源开发者社区打造了 ZCode,作为 GLM-5.2 的官方开发环境,但也兼容开发者已经喜爱的工具和订阅。竞争与协作共同推动行业前进。个人推文 1.2k 赞,Z.ai 把「创始人 IP + 开发者社群」作为产品冷启动核心打法。

Zai_org：Z.ai 推出 ZCode(GLM-5.2 官方开发环境):GLM Coding Plan 订阅用户在 ZCode 中享有 1.5 倍使用额度,支持 BYOK,可接入现有订阅和 API;支持 macOS/Windows/Linux。

原帖 ↗

Designarena @@Designarena 294 likes

突发:Google DeepMind 的 Gemini Omni Flash 以 1404 Elo 在 Video Arena 总榜登顶,领先 BytePlus Global 的 Seedance 2.0 Mini(第二名)101 个 Elo,这是 Video Arena 历史上最大跃升之一。Google 从 Veo 系列以来跃升 7 位,确立全球视频生成领先地位。

原帖 ↗

LMArena @@arena 461 likes

Claude Sonnet 5(Thinking)在 Code Arena:Frontend 排第 6。最新 Sonnet 比 Sonnet 4.6 高 +29 分,比 Opus 4.6(Thinking)高 +9 分;其他模态:Document #11,Search #17,Vision #21,Text #32。Anthropic 这次发布很亮眼。

claudeai：Claude 官号 6.30 发布 Claude Sonnet 5,称其为「最具智能体能力的 Sonnet」:能制定计划、使用浏览器和终端等工具,并以几个月前还需要更大更贵模型才能达到的自主水平运行。

原帖 ↗

Hesamation @@Hesamation 4462 likes

Fable 5 不是被 nerf,而是被屠杀。问题甚至不在模型本身,而是 Anthropic 设定的硬性护栏太严。4.4k 赞,叠加 BridgeMind 重测 Debugging 86.2→25.9 的硬数字,把社区愤怒推到顶点。

bridgemindai：BridgeMind 7.2 重跑 7.1 版的 Claude Fable 5,结果:Debugging 86.2→25.9,Refactoring 73.6→38.4,Hallucination 75.9→61.7。新护栏在太多任务上触发,回退到 Opus 4.8。

原帖 ↗

LMArena @@arena 23 likes

Claude Fable 5 首发时在 Code Arena:Frontend 和 Text Arena 排第 1,Vision 排第 2。基于最近全球社区投票,7 月新端点上的前后分数差异在置信区间内,统计上无意义。Code Arena:Frontend 仍第一,但 27 分的下降与 Anthropic 在重开公告中提到的现象一致。

claudeai：Anthropic 7.1 公告:与美国政府沟通后更新了网络安全防护。绝大多数编码任务不受影响;新护栏会比此前的 Fable 护栏标记略多无害请求,正逐步优化。被标记的请求会回退到 Opus 4.8;生物/化学分类器仍较宽。

原帖 ↗

trq212 @@trq212 469 likes

关于 Fable 在订阅计划上的可用性问题。虽然 7 月 7 日后会从订阅中下架,我们会在产能允许时尽快把 Fable 重新作为订阅标准权益,正像我们原博客说的那样。469 赞,Anthropic 首次承认 Fable 5 暂时不具备「订阅默认模型」的稳定性。

原帖 ↗

Phoenixyin13 @@Phoenixyin13 1765 likes

CNBC 直播直接原地爆炸。Palantir CEO Alex Karp 近 20 分钟全程情绪拉满,主持人几次想打断都打断不了。他疯狂输出核心:OpenAI、Anthropic 那些大模型被 irresponsibly over-sold,企业按 token 付费等于自己花钱养对手、把美国企业和军方的命脉外包给几家实验室。1.7k 赞 / 62 万阅读。

Aaron Rupar：记者 Aaron Rupar 7.1 放完整视频:Palantir CEO Alex Karp 今早 CNBC 采访中的「精神崩溃」全过程。

原帖 ↗

BNB Chain @@BNBCHAIN 172 likes

欢迎使用 BNB Agent Studio。安装 CLI,通过一行 prompt 就能构建一个 Agent,跳过基础设施搭建,在 BNB Chain 上更快交付。Prompt in. Agent out.

原帖 ↗

axiaisacat @@axiaisacat 60 likes

Meta 下场掀桌子了。刚开源的 Astryx,一款专为实时 AI Agent 设计的反应式框架:原生异步、多智能体协作、工具调用一气呵成,流式输出丝滑到离谱。LangChain、CrewAI 看完连夜改架构?直接挑战链式/图式编排范式。

原帖 ↗

Watchlist

Fable 5 在 7.7 撤出订阅后,Anthropic 是否能在产能恢复后将其回归订阅标准权益,以及生物/化学分类器何时收窄
OpenAI 与美国政府 5% 股权谈判是否在 30 天内落地,具体估值基准、政府董事席位与 AI 安全让渡条款
Palantir CEO Karp 表态后,是否有更多大型企业 CTO 跟进质疑闭源 token 计费模型,催生「企业 AI 自托管」赛道
Gemini Omni Flash 在更长文本/多镜头/可控性等视频生成子任务上的稳定性,与 BytePlus Seedance 2.0 Mini、Runway 等竞品对比
Meta Astryx 在 30 天内对 LangChain、CrewAI 现有用户产生的迁移量,以及 Meta 后续是否商业化
日本最高法院 AI 发明人裁决是否被 USPTO、EPO 等其他主要司法辖区跟进,学术界披露标准是否同步收紧
xAI Voice Agent Builder 真实延迟、声音自然度、多语种支持的第三方评测
ZCode 实际用户留存、BYOK 渗透率与开发者从 Claude Code / Codex CLI 的迁移比例