最新一期第 10 期 · 共 15 条信号

2026年7月1日

周三 · 过去 24 小时的 AI 世界

模型之争转入范式之争:Sonnet 5 携促销价登场,GeneBench-Pro 把 AI 智能体拽进科研,Claude Science 把算力调度交到科学家手里

过去 24 小时,OpenAI 与 Anthropic 罕见同日四发:Sonnet 5 携促销价 $2/$10 百万 token 正式登场,Intelligence Index 53 分与 GPT-5.5 同分、逊于 Opus 4.7/4.8;GeneBench-Pro 用 129 道合成题与已知因果结构,把『科学智能体』评估从『答得好不好』推向『能不能做真正的研究决策』;Claude Science 把 60+ 科研连接器、本地/HPC/Modal 算力调度、reviewer agent 自校打包成单一一站式入口;DeepMind 同步双发 Nano Banana 2 Lite($0.034/图)与 Gemini Omni Flash($0.10/秒)。同日 Mythos 出口管制松动信号再起、吴恩达系统阐述『Loop Engineering』三 Loop 框架、Nous Hermes Agent 网页抓取速度提升 60 倍、SGLang DSpark 预测解码实测数据放出、Sonnet 5 也被指嵌入了针对中国用户的隐蔽检测代码。

本期判断

今天真正改变了什么:前沿模型的『分数之争』让位于『工作流之争』。Sonnet 5 用促销价强推订阅档,把 Sonnet 系列第一次做到『买得起的智能体基座』;Claude Science 用多 agent + 本地/HPC/Modal 算力调度把科研工具栈整合为单一一站式入口;GeneBench-Pro 用合成题与已知因果结构把『科学智能体』的评估从『答得好不好』推向『能不能做真正的研究决策』;Nano Banana 2 Lite + Gemini Omni Flash 把生成式媒体价格砍到 0.034 美元/图与 0.10 美元/秒。OpenAI 与 Anthropic 在 7-01 同日四发,标志着前沿厂商正式进入『拼生态、拼场景、拼工作流嵌入』的阶段,基础模型层的同质化竞争已让位。

5深度报告

10快讯新闻

20推特讨论

本期速览

Anthropic Sonnet 5 正式发布:促销价 $2/$10 百万 token(8-31 前),Intelligence Index 53 分与 GPT-5.5 同分但逊 Opus 4.7/4.8,scaling01 评价『垃圾箱定价』——Sonnet 5 比 Opus 4.8 Max 贵 1.2x、比 DeepSeek-V4-Pro 贵 57x

Claude Science 同步上线:60+ 科研连接器、UniProt/PDB/Ensembl/Reactome 直连、本地/HPC/Modal 算力调度、reviewer agent 自校引用与计算,7-15 申请截止、单项最高 $30,000 额度

OpenAI GeneBench-Pro:129 道合成题、10 大计算生物学域、GPT-5.6 Sol 高推理档通过率 28.7%(Pro 模式 31.5%),最低档个位数;GLM 5.2 与前沿的科研推理差距显著大于代码差距

DeepMind 双发 Nano Banana 2 Lite(1251 分 Arena 第 5,$0.034/图,<4 秒)与 Gemini Omni Flash(视频编辑 Arena 第 2,1347 分,$0.10/秒,与 Veo 3.1 Fast 同价)

Mythos 出口管制松动信号:POLITICO 转述 Fable 5 解除管制预期,未官方坐实;6-28 已写过 Mythos 全量深度,本期只做增量追踪

Deep Dives

本期重点 · 深度报告

5 篇深度调研,点进去看完整分析与多源交叉验证

模型发布重要度 5/5

Claude Sonnet 5 正式发布:agentic 能力替代更大模型,促销价 $2/$10 用 tokenizer 暗坑做『成本中性』过渡

Anthropic Sonnet 5 正式 GA,agentic 能力替代『更大模型』;促销价 $2/$10,但新 tokenizer 把『成本中性』变成最多 1.35× 实际账单。

阅读深度报告 →

来源: Anthropic 官方博客:Introducing Claude Sonnet 5↗Artificial Analysis 官方评测页:Claude Sonnet 5↗AnthropicAI 官方 X:Sonnet 5 发布与 Arena 上线公告↗

产品上新重要度 5/5

Anthropic Claude Science 登场:把科学家的本地笔记本、HPC 与 GPU 云缝进同一个 AI 工作台

科研 AI 不再是聊天框:多 agent + 可审计工件 + 本地-HPC-Modal 三档算力,把科学家从拼装 pipeline 中解放出来。

阅读深度报告 →

来源: Anthropic 官方博客:Claude Science, an AI workbench for scientists↗AnthropicAI 官方 X 账号(Claude Sonnet 5 转发与当日上下文)↗OpenAI 官方博客:GeneBench-Pro 研究级基准↗

研究论文重要度 5/5

OpenAI 推 GeneBench-Pro:129 道合成题把研究级智能体评估从『答题』推向『研究决策』,GPT-5.6 Sol 高档仅 28.7%

GeneBench-Pro 用 129 道『已知因果结构的合成题』把研究级智能体评估从答题转向研究决策:GPT-5.6 Sol 高档 28.7% 通过率(Pro 31.5%),解题数是 GPT-5.2 的 6 倍、token 消耗仅 2/3;GPT 与开源的科研推理差距显著大于代码差距。10 题开源、50 题给 Artificial Analysis。

阅读深度报告 →

来源: OpenAI 官方博客:Introducing GeneBench-Pro↗OpenAI 官方 X 帖(GeneBench-Pro 发布)↗OpenAI 官方 X 帖(GeneBench 原始版,2025)↗

模型发布重要度 5/5

DeepMind 双发 Nano Banana 2 Lite + Gemini Omni Flash:把生成式媒体价格砍到 $0.034/图与 $0.10/秒,头部模型价格战全面引爆

Nano Banana 2 Lite + Gemini Omni Flash 同步上线,文生图 Arena 第 5、视频编辑 Arena 第 2,价格分别砍到 $0.034/图与 $0.10/秒。

阅读深度报告 →

来源: Google DeepMind 官方 X(双发公告)↗arena 官方 X(两款模型榜单表现)↗Logan Kilpatrick 官方 X(详细价格与延迟)↗

研究论文重要度 4/5

OpenAI 用流行病学方法解剖 Rockset 的 18 年老 bug:不要做单 case 的医生,先建一个高质量的全人群数据集

把 core dump 当病人,先建全人群数据集再分群——OpenAI 调试 Rockset 崩溃的工程方法论。

阅读深度报告 →

来源: OpenAI 官方博客:Core dump epidemiology↗GitHub libunwind Issue #927(OpenAI 报的 bug)↗GitHub libunwind commit 31440e9(引入 bug 的提交)↗

Key Numbers

$2 输入 / $10 输出 Sonnet 5 促销价(每百万 token) Anthropic 官方,2026-08-31 前限时;之后恢复 $3/$15;对照 Opus 4.8 的 $5/$25

53 分(max effort) Sonnet 5 Intelligence Index Artificial Analysis 评测;比 Sonnet 4.6 高 6 分,与 GPT-5.5 同分,落后 Opus 4.7/4.8

Opus 4.8 Max 1.2x / GPT-5.5-xhigh 2x / GLM-5.2 5x / Kimi-K2.6 7x / DeepSeek-V4-Pro 57x Sonnet 5 单任务成本相对值 scaling01 转述,去除促销定价后成本仍高于 Opus 4.8;原话『goes straight into the garbage bin』

129 题 / 10 大域 / 21 子域 GeneBench-Pro 题目数 / 域数 OpenAI 官方,合成数据集已知因果结构、外部专家审核;10 题已开源至 HF、50 题给 Artificial Analysis

28.7%(Pro 模式 31.5%) GPT-5.6 Sol GeneBench-Pro 高推理档通过率 OpenAI 自报;GPT-5 此前在原始 GeneBench 得分低于 5%;最低档个位数

$0.034 / 1K image,单图 <4 秒 Nano Banana 2 Lite 单图价格与延迟 Google 官方,文生图 Arena 1251 分排名第 5

Briefs

快讯 · 看标题就懂

10 条次要信号,附早报判断与原始链接

观点观察重要度 3/5 中置信已核验

吴恩达系统阐述『Loop Engineering』三 Loop 框架:工程师正在部分承担 PM 角色

吴恩达在 The Batch 中系统阐述『Loop Engineering』——由 Boris Cherny(Claude Code)与 Peter Steinberger(OpenClaw)推火的热词。三 Loop 框架:① Agentic Coding Loop——agent 写代码并自测,分钟级迭代(他用一个女儿练习打字的 app 验证 agent 可独立运行约 1 小时);② Developer Feedback Loop——开发者以十~小时级节奏审产品并指挥 agent,AI 已能自己测代码,开发者从 QA 转向高层产品决策,他强调这是『人类上下文优势』而非『品味』;③ External Feedback Loop——朋友/Alpha 用户/A/B 反馈,天~周级回灌开发愿景。吴恩达判断工程师正部分承担 PM 角色。

Why

吴恩达用框架化语言把过去一年 Claude Code / Codex / Cursor 用户的实践总结为『Loop Engineering』,为『工程师转 PM』的现象提供了可传播的命名,是工程师群体重新理解自身角色的关键参考框架。

Impact

工程师:需要把『设计 feedback loop』与『运行 agentic loop』作为新的核心能力,而非纯写代码;创业公司:组织设计需重新评估 PM / Engineer 配比;教育:Coursera / DeepLearning.AI 可能据此推出相关课程。

Numbers

agent 可独立运行约 1 小时吴恩达女儿练习打字 app Agentic Coding Loop 验证时长

早报判断

Loop Engineering 真正的洞察不在『三 Loop』的结构,而在把『开发者 vs PM』的边界显式模糊化——吴恩达把过去 PM 的核心工作(定义产品愿景、把控用户反馈循环)用『Developer Feedback Loop』与『External Feedback Loop』转译到工程师的日常职责上。这意味着 2026 年的工程师岗位正在被结构性重写:不再是『写代码的人』,而是『设计、运行、调优三 Loop 的人』。这套框架与 Cognition Devin Fusion、Claude Code、Anthropic Claude Science 的产品路径完全一致——harness 化的 agent 工程范式。

接下来看：吴恩达后续是否会推出 Loop Engineering 的系统课程 / Boris Cherny / Peter Steinberger 等被引用的实践者是否会扩展三 Loop 的细节

#吴恩达 #Loop Engineering #Agent #PM 转 Engineer

Andrew Ng 官方 X 帖:Loop Engineering 框架↗ The Batch 完整长文↗

产品上新重要度 3/5 中置信官方源

Nous Hermes Agent 网页抓取性能跃升 60x、成本降至 1/49;Step 3.7 Flash MoE 通过 Nous Portal 限时 30 天免费

Nous Research 宣布 Hermes Agent 网页抓取后端升级:读取网页速度提升最高 60 倍、成本降低 49 倍;抓取后端直接将干净内容传给 agent,跳过冗余处理;大页面本地保存、按需分页。同时 Nous Portal 与 StepFun 合作的 Step 3.7 Flash MoE 视觉语言模型限时 30 天免费开放,主打 agent 效率、编码、搜索与多模态工作流。Hermes Agent 还新增 `/usage` 命令可在任意调用点查看用量明细,改进后稳定处理大规模多智能体看板运行与高并发会话。

Why

Hermes Agent 是当前少数提供『速度 + 成本 + 多 agent 看板』三角能力的开源 agent,且网页抓取 60x 是少见的『工具调用层』优化案例,对所有自建 agent harness 的团队有借鉴价值。

Impact

自建 agent 团队:网页抓取后端的成本与延迟是隐性瓶颈,Nous 的做法值得借鉴;开源模型阵营:Step 3.7 Flash 限时免费是 OpenRouter 之外的另一获客路径;Nous Portal:作为『开放 + 限时免费』的新分发模式,可能成为继 OpenRouter 之后的中立平台选项。

Numbers

读取速度 60x / 成本 1/49 Hermes Agent 网页抓取性能提升

30 天限时 Step 3.7 Flash 免费开放时长

早报判断

Nous 把『网页抓取』这一常被忽视的 agent 基础设施环节做了 60x 性能优化——这揭示了一个常被低估的事实:在 agent harness 中,『工具调用』本身的成本与延迟往往远超『模型推理』,且常是隐性瓶颈。Step 3.7 Flash 限时 30 天免费则是 Nous 在『开源 vs 闭源』之外的第三条路——『开放 + 限时免费』的获客路径,与 Sonnet 5 促销价的逻辑异曲同工,但成本承担方不同。

接下来看：Step 3.7 Flash 30 天限时结束后的实际定价 / Hermes Agent 多智能体看板的稳定性第三方评测

#Nous Research #Hermes Agent #Step 3.7 Flash #网页抓取

NousResearch 官方 X:网页抓取性能升级↗ NousResearch 官方 X:/usage 命令与并发伸缩↗

研究论文重要度 3/5 中置信已核验

SGLang DSpark 预测解码实测数据放出:多场景预测 3 token,1K prompt 加速比 1.81x,8 卡 B200 速度 164→297 token/s

SGLang 的 DSpark 预测解码实测数据在 PR29538 放出:多场景基本能预测 3 个 token(数学 3.37 / 对话 3.0 / 代码 3.52)。1K prompt 下加速比 1.81x,8 卡 B200 速度从 164 token/s 拉到 297 token/s。TPOT 仅 2.9-5.2ms,DSpark 神经网络层延迟可忽略。超过 8 并发收益降至 1.2-1.3x(GPU 已打满)。注:PR29538 尚未合并。这是继 DeepSeek 开源 DeepSpec(含 DSpark/DFlash/Eagle3 三种草稿模型)之后,DSpark 在 SGLang 推理引擎上的第一次完整数据披露。

Why

DSpark 第一次给出在 SGLang 上的完整实测数据,且与 DeepSeek 自报口径的差异值得追问——投机解码的实际效果决定开源推理引擎的下一阶段能力。

Impact

vLLM:需回应 DSpark 在 SGLang 上的加速数据,是否会被移植;推理框架团队:投机解码与高并发调度的权衡是下半年重点;DeepSeek:开源 DeepSpec 是其『推理生态影响力』的重要拼图,DSpark 上游合并进度值得关注。

Numbers

数学 3.37 / 对话 3.0 / 代码 3.52 DSpark 多场景预测 token 数

1.81x / 8卡B200 164→297 token/s DSpark 1K prompt 加速比与吞吐

早报判断

DSpark 在 SGLang 上的实测数据揭示了『投机解码』的工程边界:1.81x 加速比与 3 token 预测长度,比 DeepSeek 自报的 60-85% 提速口径更保守——说明 DeepSeek 自报口径与第三方实测之间存在显著差异,这正是 6-28 DSpark 深度页里就指出的 caveat。同时『超过 8 并发收益骤降』的瓶颈提示:SGLang 与 vLLM 在投机解码与高并发调度之间的取舍,会成为下半年推理引擎的主战场。

接下来看：PR29538 合并进度与 SGLang 正式版本集成时间表 / vLLM 是否会移植 DSpark / Eagle3 的预测解码实现

#SGLang #DSpark #投机解码 #DeepSpec

karminski3 官方 X:DSpark PR29538 实测数据↗ SGLang GitHub PR29538↗

行业动态重要度 3/5 低置信发展中

Mythos 出口管制增量:POLITICO 转述 Fable 5 解除管制预期,官方未坐实;Fable 仍全面禁止

据 POLITICO 转述(@SophiaCai99 / @AggrNews),美国商务部预计 6-30 晚解除对 Anthropic 模型 Fable 的出口管制。AggrNews 与 ZOOMER 都转发了同一消息。这是继 6-12 Mythos 5/Fable 5 全面暂停、6-28 转述 Mythos 5 部分解禁(限定三类对象)之后的又一次政策松动信号。Fable 5 是否解除管制,OpenAI 的 Fable 是否同样解除(目前被管制名单只有 Anthropic 与 OpenAI 两家),是观察前沿 AI 国家安全框架走向的关键指标。6-28 早报已写过 Mythos 全量深度页,本期只做增量追踪。

Why

出口管制是前沿 AI 国家安全框架的核心抓手,Fable 5 据传解除是『双轨制』政策的第一个可观察松动信号,直接关系到 Anthropic 的全球商业化节奏与亚洲厂商的窗口期。

Impact

Anthropic:Fable 5 解除后对美可信机构的访问恢复,商业化收入有望提速;亚洲厂商:抢推 Mythos-like 模型的窗口期可能在 7 月中下旬收窄;OpenAI:Fable 是否同步解禁是观察『双轨制』是否对称的关键。

Numbers

6-12 全面暂停 → 6-28 Mythos 5 部分解禁 → 6-30 Fable 5 据传解除出口管制时间线

早报判断

Mythos 出口管制正从『全面暂停』走向『分对象解禁』的精细化阶段——先放开 Mythos 5 给三类对象(自家研究员/可信合作伙伴/政府机构),Fable 5 据传 6-30 晚跟进,意味着 Anthropic 的两条旗舰线可能在 7 月初全部恢复对美可信机构的访问。但『对美解禁 ≠ 对华解禁』,亚洲厂商趁封锁窗口抢推 Mythos-like 模型的窗口期(6-28 已观察到 360 / Sakana)可能在 7 月中下旬收窄。OpenAI 的 Fable(同名但不同公司)是否同步解禁,是观察白宫对前沿模型『双轨制』的关键。

接下来看：美国商务部 / Anthropic 官方对 Fable 5 解除管制的正式公告 / OpenAI Fable 是否同步解禁(目前被管制名单只有 Anthropic 与 OpenAI 两家)

#Mythos #Fable #出口管制 #POLITICO

POLITICO via AggrNews X↗ Anthropic 6-12 官方声明↗

研究论文重要度 3/5 中置信官方源

Meta Brain2Qwerty v2 增量:开源训练代码 + BCBL 发布 v1 数据集,9 名志愿者平均词准确率 61% / 最佳 78%

Meta AI 转发 Jean-Remi King:Brain2Qwerty v1 已在 Nature Neuroscience 发表,Brain2Qwerty v2 已开源(v2 在 v1 基础上加入并改进了更鲁棒的语言模型/神经解码 pipeline)。这是继 6-29 Nature 发表后的开源代码 + 数据集同步释放——Meta 走的是『论文 + 代码 + 数据』三件套路线。HN 64 分热帖补充关键事实:这是首个能从原始 MEG 脑信号端到端实时解码整句的非侵入式 BCI,9 名志愿者平均词准确率 61%、最佳 78%。6-29 早报已写过全量增量,本期为延续报道。

Why

Brain2Qwerty v2 是『首个能从原始 MEG 端到端实时解码整句的非侵入式 BCI』,开源代码 + 数据集意味着可复现性,与 OpenAI 的闭源路线形成对比。

Impact

BCI 研究者:可立即基于 v1 数据集与训练代码复现实验,加速 BCI 领域迭代;Meta:通过『论文 + 代码 + 数据』三件套建立 BCI 领域的开放标准,与 OpenAI 的闭源路线分化;医疗设备厂商:需评估非侵入式 BCI 何时进入医疗级监管路径。

Numbers

平均 61% / 最佳 78% Brain2Qwerty v2 词准确率

64 分 / 38 评论 Brain2Qwerty HN 热帖分数

早报判断

增量看点是『开源代码 + 数据集』与『Nature 论文』的同步释放——Meta 用『三件套』路线把 Brain2Qwerty 变成可被全球 BCI 研究者复现的基线,这与 OpenAI 形成鲜明对比。但需注意:BCBL v1 数据集是首发 v1,而 v2 数据是否开源尚未提及——若 v2 数据不开放,则『全栈开源』叙事会出现裂缝。这是观察 Meta 在 BCI 领域『论文 PR vs 真正可复现』的关键判断点。

接下来看：Brain2Qwerty v2 数据集是否开源(v1 已开源) / 第三方研究团队基于 v1 数据集复现实验的论文何时出现

#Brain2Qwerty #Meta #BCI #Nature Neuroscience

Meta AI 官方 X 转发 Brain2Qwerty v2↗ Meta AI Blog:Brain2Qwerty v2↗ HackerNews 热帖:From brain waves to words↗

研究论文重要度 3/5 中置信已核验

arXiv 高引论文:Agentic Abstention——智能体在『何时不行动』上比通用模型差 30 个百分点

arXiv 2606.28733《Agentic Abstention: Do Agents Know When to Stop Instead of Act?》获 Hugging Face 120 分(本日 arXiv 候选最高),核心发现:智能体在『何时该停止 / 不该行动』上的判断能力比通用模型低约 30 个百分点。这是 agent harness 范式被广泛采用后的第一个『反例』研究——『行动能力』与『克制能力』不是同向增长,智能体越能执行就越容易过度执行。

Why

arXiv / HF 当日最高分(120)的 agent 安全论文,在 harness 化产品大爆发的当口提出『克制能力』缺口,可能成为下半年 agent 安全的核心理论文献。

Impact

agent harness 厂商:Claude Code / Devin / Claude Science 等需把『abstention』加入评测矩阵;企业买方:agent 失败模式的预期需要从『答错』转向『过度执行』;AI 安全研究:agentic alignment 成为新前沿,reviewer agent / guardrail agent 的产品形态将被验证。

Numbers

120 分(本日 HF 候选最高) Agentic Abstention HF 分数

比通用模型低约 30 个百分点智能体 abstention 能力差距

早报判断

这篇论文是 6 月 Claude Code / Devin Fusion / Claude Science 等 harness 化产品大爆发之后的第一个反向警示——『克制能力』(abstention)是 agent 安全的核心,但所有 harness 产品的优化目标都偏向『行动』。HF 120 分高引说明 agent 安全研究社区已意识到这个缺口。下半年最可能出现的 agent 失败模式不是『答错题』而是『做了不该做的事』,这会推动『guardrail agent』『reviewer agent』(如 Claude Science 已采用)成为标配。

接下来看：该论文是否被 NeurIPS / ICML 2026 接收 / Claude Science reviewer agent / Claude Code 自校机制能否实测提升 abstention

#agent 安全 #abstention #arXiv #HF Papers

HuggingFace Papers:Agentic Abstention↗ arXiv 论文 2606.28733↗

产品上新重要度 2/5 中置信已核验

LongCat-2.0 / GLM 5.2 设计任务实测:几乎所有类目击败 Opus 4.8,LongCat 物理任务表现优于 Opus 4.8 / GLM 5.2

Command Code 用 /design 在 SaaS、作品集、仪表盘、建筑站、宠物店、房地产等设计任务上跑测试,GLM 5.2 在几乎所有类目上击败 Opus 4.8;LongCat-2.0 在真实物理任务(HTML5 canvas 写物理模拟:加农炮拆墙、保龄球击瓶、龙卷风卷物)上对标 Opus 4.8 与 GPT 5.5 表现,LongCat 物理效果优于 Opus 4.8 与 GLM 5.2(无穿模/掉落),细节与渲染与 GPT 5.5 持平;LongCat 18,015 tokens / $0.00、Opus 4.8 18,872 / $0.48、GPT 5.5 32,588 / $0.98、GLM 5.2 31,062 / $0.09。GLM-5.2 成为 Z.ai 在 Hugging Face 历史上最受好评的模型。Qwen3.6 27B 在某种设置下把自家 35B A3B 吊着打。

Why

这是 6-28 『开源追平闭源』叙事的第一次具体场景验证,GLM 5.2 在设计任务上击败 Opus 4.8 是『能力可比 + 价格仅 1/5』的双重背书。

Impact

设计工具厂商:Command Code 等垂直 agent 工具会进一步把 GLM 5.2 / LongCat 推到默认模型位置;开源阵营:『能力可比 + 价格碾压』的双重优势会让更多企业买方迁移;Opus 4.8 等闭源旗舰:在垂直场景的领先优势会被进一步压缩。

Numbers

18,015 tokens / $0.00 LongCat 物理任务 token / 价格

LongCat 优于 Opus 4.8 / GLM 5.2,与 GPT 5.5 持平 LongCat 物理任务表现对比

早报判断

GLM 5.2 / LongCat-2.0 / Qwen3.6 27B 的实测数据,共同把『开源追平闭源』从 6-28 OpenRouter Insights 的判断推进到具体场景验证:设计任务几乎全面击败 Opus 4.8,物理任务优于 Opus 4.8 / GLM 5.2。这是继 6-28 『3-6 个月差距稳定』之后的第一次具体场景验证——但需注意:这些测试是 Command Code / atomic_chat 等单一第三方,在 SaaS / 物理模拟这种垂直场景下的样本,不构成全面评测。Qwen3.6 27B 把自家 35B A3B 吊着打则说明『小模型靠精调跑赢大模型』的现象已经在阿里内部出现。

接下来看：GLM 5.2 / LongCat-2.0 在第三方综合基准(Artificial Analysis / LiveBench / Aider)上的全面表现 / Command Code /design 是否发布跨模型的可复现测试套件

#LongCat #GLM 5.2 #Qwen3.6 #开源追平

Command Code 官方 X:GLM 5.2 设计任务↗ atomic_chat_hq X:LongCat 物理任务↗ ZixuanLi_ X:GLM-5.2 HF 最受好评↗ CMGS1988 X:Qwen3.6 27B↗

模型发布重要度 2/5 低置信已核验

Mistral 发布 Leanstral 1.5:HN 36 分,聚焦推理 / 代码 / 长上下文

Mistral 发布 Leanstral 1.5 模型,在 HackerNews 获得 36 分与 1 条评论(冷启动期)。模型卡片聚焦推理、代码与长上下文能力。这是 Mistral 在『前沿智能体』叙事之外的『性价比推理』路径上的更新——Leanstral 系列定位介于旗舰与开源权重之间,与 GLM 5.2 / Qwen3 / DeepSeek V4 系列在中端市场正面对决。

Why

Mistral 是欧洲唯一有持续模型发布的厂商,Leanstral 1.5 是观察其『前沿 vs 性价比』定位选择的关键产品。

Impact

欧洲企业买方:Leanstral 是符合欧盟数据合规的少数前沿选择;中端模型市场:Leanstral 1.5 与 GLM 5.2 / Qwen3 / DeepSeek V4 在 2026 H2 将形成更激烈的正面对决;Mistral:定位选择决定下一阶段融资估值。

Numbers

36 分 / 1 评论 Leanstral 1.5 HN 分数

早报判断

Leanstral 1.5 在 HN 上仅 36 分与 1 条评论,远低于 Sonnet 5(35 分 / 16 评论)与 Brain2Qwerty(64 分 / 38 评论)——说明 Mistral 在前沿智能体叙事中已显著掉队,Leanstral 系列在中端市场的差异化卖点是『价格 + 长上下文』,而非『前沿能力』。Mistral 下一阶段需要决定:是继续在『中端性价比』打深,还是回追前沿智能体。

接下来看：Leanstral 1.5 在 Artificial Analysis / LiveBench / Aider 等第三方基准的具体表现 / Mistral 是否在 7 月公布 2026 H2 的产品路线图

#Mistral #Leanstral #中端模型 #欧洲

Mistral 官方模型卡:Leanstral 1.5↗ HackerNews 热帖:Leanstral 1.5↗

产品上新重要度 2/5 中置信已核验

GitHub Trending 上榜项目:winsznx/theeleven(AI 自主开足球盘)、benchflow-ai/awesome-evals、lycorp-jp/sim-use、eli-labz/Godcoder

本日 GitHub 高分候选(均 200+ stars):① winsznx/theeleven(691★)——11 个自主 AI 智能体在 X Layer 开放足球 prop 盘,自定义 Uniswap v4 hook、gasless USDT0 staking;② benchflow-ai/awesome-evals(606★)——策划的非 BS AI 智能体评估资源库,论文/博客/工具/基准;③ TianhangZhuzth/Fundamental-Ava(588★)——构建数字人自主协作社交智能体;④ Pluviobyte/video-production-skills(481★)——AI 视频制作可复用技能库;⑤ lycorp-jp/sim-use(326★)——给 AI 智能体 iOS Simulator 与 Android 模拟器/真机的『眼睛与手』;⑥ eli-labz/Godcoder(254★)——本地优先开源编码智能体,自带 LLM key、代码留在本地;⑦ hanlinwenyuan/hlwy-ai-checker(203★)——检查第三方 AI API 是否掺假与渠道一致性。

Why

GitHub Trending 是观察 agent 工程范式分化的最直接指标,本日高分候选共同揭示『agent 经济 + agent 评估 + 本地优先』三个趋势。

Impact

开源 agent 生态:本地优先(Privacy-first)与自主经济(Autonomous agent economy)将成为下一阶段重点;企业买方:agent 评估资源库是建立内部评测矩阵的参考;crypto / DeFi:链上 AI agent 是与现实世界资产结合的新前沿。

Numbers

691★ theeleven GitHub stars

606★ awesome-evals stars

早报判断

本日 GitHub Trending 揭示三个趋势:一是『自主 agent 经济』(theeleven 691★ 在链上开足球盘)——agent 从『工具』走向『经济主体』;二是『agent 评估』(awesome-evals 606★)——agent 安全与 abstention 论文后,评估资源库同步爆发;三是『本地优先』(Godcoder 254★、sim-use 326★)——隐私与可控性驱动 agent 部署回归本地。这三个趋势共同指向:agent 范式从『云端 SaaS』走向『本地 + 经济主体』的双向分化。

接下来看：theeleven 在 X Layer 上的实际足球盘交易量与合规进展 / awesome-evals 资源库的更新频率与社区贡献者画像

GitHub: winsznx/theeleven↗ GitHub: benchflow-ai/awesome-evals↗ GitHub: lycorp-jp/sim-use↗ GitHub: eli-labz/Godcoder↗

行业动态重要度 2/5 低置信发展中

Anthropic Claude Code 被指嵌入针对中国用户的隐蔽检测代码:时区 / 代理 / 中国 AI 域名指纹写入 prompt 回传

BREAKING 转载:Anthropic 在 Claude Code 中嵌入了针对中国用户的隐蔽检测 / 类似间谍代码。当用户使用非官方代理时,会悄悄收集时区、代理、中国 AI 实验室域名等信息,并通过修改日期格式等隐写手法把指纹写进 prompt 发回后端。原报道(@IntCyberDigest / @oragnes 转述)给出来源待核实,目前未有 Anthropic 官方回应,事实尚未坐实。

Why

若属实,这是 Anthropic 在『地域合规』上第一次被公开指控使用隐蔽检测代码,直接影响中国用户对 Claude Code 的信任与代理生态走向。

Impact

中国用户:Claude Code 代理生态可能受影响,需重新评估使用风险;Anthropic:需要官方澄清技术细节,否则中国市场份额可能受损;国际安全研究:这是 AI 工具『合规 vs 隐私』边界的标志性案例。

Numbers

@IntCyberDigest / @oragnes X 转述指控转述来源

早报判断

这条指控若属实,意味着 Anthropic 在 Claude Code 中建立了『地域 + 行为』双重指纹机制——通过日期格式隐写把指纹写进 prompt,是一种相当成熟的反检测工程。这与 Anthropic 自身的政策声明(6-12 Mythos/Fable 出口管制配合)方向一致:在合规框架下对『受限用户』做精细化区分。但指控本身的来源是单一国际安全媒体转述,缺乏独立第三方验证,且 Anthropic 尚未回应。需等待官方公告或独立安全研究跟进。

接下来看：Anthropic 官方对该指控的回应 / 独立安全研究者(看雪 / FreeBuf / Hacker News)对该指控的复现验证

#Anthropic #Claude Code #合规 #中国用户

@oragnes X:BREAKING 转载↗

X / Twitter 讨论

推特上在讨论什么

精选 10 条从业者发言,点"原帖"看一手出处

Logan Kilpatrick @@OfficialLoganK 2812 likes

Google 在 Gemini API 与 AI Studio 推出两款生成式媒体模型:Nano Banana 2 Lite(单图 <4 秒、$0.034/1K image)与 Gemini Omni Flash(视频编辑 SOTA,$0.10/秒与 Veo 3.1 Fast 同价)。

原帖 ↗

bboczeng @@bboczeng 2 likes

Anthropic 正式发布 Claude Sonnet 5:迄今最 agentic 的 Sonnet,推理/工具/编程/知识工作全面升级,性能逼近 Opus 4.8 但价格更低。限时优惠(至 8-31)输入 $2/M token、输出 $10/M token。Claude Code、Free/Pro 用户默认模型,已集成 GitHub Copilot、Notion、Cursor、Devin。

原帖 ↗

Artificial Analysis @@ArtificialAnlys 405 likes

Claude Sonnet 5 评测:Intelligence Index 53 分(max effort),比 Sonnet 4.6 高 6 分,与 GPT-5.5(high reasoning)同分,落后 Opus 4.7/4.8,榜上排第 5。提醒:去掉促销定价后 Sonnet 5 单任务成本反而高于 Opus 4.8。

原帖 ↗

scaling01 @@scaling01 575 likes

成本对比:Sonnet 5 比 Opus 4.8 Max 贵 1.2x、比 GPT-5.5-xhigh 贵 2x、比 GLM-5.2 贵 5x、比 Kimi-K2.6 贵 7x、比 DeepSeek-V4-Pro 贵 57x。原话『Sonnet 5 goes straight into the garbage bin』。

原帖 ↗

theo @@theo 1373 likes

独立确认:Sonnet 5 在 Artificial Analysis Intelligence Index 上单任务成本『MORE than Opus 4.8』,呼应 ArtificialAnlys 的结论。

原帖 ↗

daniel_mac8 @@daniel_mac8 311 likes

Sonnet 5 单 benchmark 全面输给 Opus 4.8,但仍推荐 Claude Code 的 Dynamic Workflows:/model Sonnet 5 + /effort Ultracode 让复杂任务跑动态工作流。预判:Fable 5 解封后会成为『超级智能顾问』,Sonnet 5 充当『快速实现者』。

原帖 ↗

AggrNews @@AggrNews 32 likes

据 POLITICO:美国商务部预计今晚解除对 Anthropic 模型 Fable 的出口管制。后续 ZOOMER 也转发了同一消息。

SophiaCai99：🚨 NEWS: Commerce is expected to lift export controls on Fable tonight, a senior White House official...

原帖 ↗

ZixuanLi_ @@ZixuanLi_ 834 likes

GLM-5.2 成为 Z.ai 在 Hugging Face 历史上最受好评的模型。

原帖 ↗

Command Code @@CommandCodeAI 275 likes

用 /design 在 Command Code 跑 SaaS、作品集、仪表盘、建筑站、宠物店、房地产等设计任务,GLM 5.2 在几乎所有类目上都击败 Opus 4.8。

原帖 ↗

atomic_chat_hq @@atomic_chat_hq 252 likes

LongCat 在真实物理任务(HTML5 canvas 写物理模拟:加农炮拆墙、保龄球击瓶、龙卷风卷物)上对标 Opus 4.8 和 GPT 5.5:LongCat 18,015 tokens / $0.00,Opus 4.8 18,872 / $0.48,GPT 5.5 32,588 / $0.98,GLM 5.2 31,062 / $0.09。LongCat 物理效果优于 Opus 4.8 和 GLM 5.2(无穿模/掉落),细节与渲染与 GPT 5.5 持平。

Meituan_LongCat：Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context,背后是 OpenRouter 的 Owl Alpha。从头为 agentic coding 设计:LongCat Sparse Attention (LSA) 支持 1M 上下文高效扩展,Zero-Compute Experts 动态激活。

原帖 ↗

本期导航

深度报告 · 5 篇快讯 · 10 条推特讨论 · 10 条

2026 · 七月

1 期

日

一

二

三

四

五

六

Signal Mix

头条 3

研究论文 4

模型发布 2

观点观察 1

产品上新 3

行业动态 2

Watchlist

Sonnet 5 实际订阅档迁移率与新 tokenizer 1.0-1.35× token 映射对客户账单的真实冲击
GeneBench-Pro 年底被刷满的预判 vs 各家模型在更高推理档下的实际进展
Claude Science 项目申请的科学家画像与首批用例(Manifold Bio / Allen Institute / UCSF)的产出对比
Mythos 出口管制:POLITICO 转述 Fable 解除预期 vs 商务部官方公告的时间差
DeepMind 双发商业化:Nano Banana 2 Lite 是否进入 Vertex AI 标准计费、Omni Flash 与 Veo 3.1 Fast 的能力边界
DSpark PR29538 合并进度与 vLLM 集成时间表
吴恩达 Loop Engineering 三 Loop 框架在 Claude Code / Codex / Cursor 的工程实践验证
Anthropic Claude Code 中国用户隐蔽检测代码指控的官方回应与第三方复现

Previous Editions

往期早报

全部归档 →

2026-06-30 周二 20 则

Spotify × Claude Code 工业级落地 + Cognition Devin Fusion + Claude Azure GA:agent 工程的下一阶段竞争从模型层下沉到 harness 层

过去 24 小时模型发布继续暂缓,但 agent 工程的下一阶段轮廓已经清晰,三条主线同日落地。其一,Claude Code 作者 Boris Cherny 与 Spotify 工程 VP Niklas Gustavsson 公开对谈,披露 Spotify 每天约 4500 次生产部署、约 73% PR 涉及 AI、judge 评审模型把迁移 PR 通过率从约 25% 拉到约 80%,Boris 本人更有超 40% 代码由『验证循环』生成。其二,Cognition 发布 Devin Fusion 混合模型 harness,把达到 Fable 级智能的成本压低约 35%,并把『能跑 benchmark』与『能写生产代码』两条曲线明确分开。其三,Claude Opus 4.8 与 Haiku 4.5 在 Microsoft Foundry 正式 GA,补齐 Anthropic 云渠道的最后一块拼图,同日 bboczeng 披露其 6 月 ARR 约 470 亿美元。此外,百度 Unlimited-OCR 以 3B 总参 / 570M 激活的 MoE 冲上 HF/GitHub 四榜;美团 LongCat 揭晓 Owl Alpha——OpenRouter 日调用量全球 Top 3、三大 Agent 场景月调用量均登顶。这些事件指向同一判断:模型 API 同质化之后,竞争重心已从『谁的模型更强』下沉到 agent 工程范式、云厂商渠道、企业渗透速率三个更深的变量。

2026-06-29 周一 13 则

平台条款战 + 企业运营操作系统战 + 物理供给战与人事墙:Google 限 Meta 用 Gemini、HP Frontier 全企业上线、贾扬清离开英伟达

过去 24 小时,真正的当日主线不是又出一个模型,而是同时砌起的三道墙:Google 据 FT 报道限制 Meta 使用 Gemini,平台方首次把模型访问条款做成对竞争对手的武器;OpenAI 把 Frontier 战略合作的第一个全企业客户交给 HP,验证 Frontier 作为'运营操作系统'的端到端落地;Coinbase 一口气把默认模型换到 GLM 5.2 与 Kimi 2.7 等开源权重,AI 支出砍近半,LibreChat 缓存命中率从 5% 拉到 60%。同时,Meta 在 Nature 上发表 Brain2Qwerty v2 端到端脑机接口、贾扬清离开被收购仅一年的英伟达、DeepSeek V4 官宣 7 月中旬发布并引入高峰 2 倍定价。每一条都指向同一个判断:模型发布期暂缓后,AI 产业竞争的重心正从'谁的模型更强'下沉到'模型之外'——谁能用条款卡住对手的供给、谁先把企业内部 agent 当成操作系统、谁能让基础设施继续扩张。

2026-06-28 周日 14 则

官方按下暂停键的一天:GPT-5.6 三档预览余热未散,看点转向开源追平与 Mythos 出口管制松动

过去 24 小时,OpenAI 与 Anthropic 官博都没有新的重磅发布——GPT-5.6 Sol/Terra/Luna 三档预览是 6-26 的余热,Claude Tag 进 Slack 是 6-23 的延续。真正的当日动态集中在社区与开源侧:OpenRouter 抛出『开源与闭源前沿差距稳定在 3-6 个月、18 个月没被拉开』的判断,DeepSeek 开源投机解码全栈库 DeepSpec,Coinbase 把默认模型换成开源权重后 AI 支出近乎减半;政策面上,被华府暂停访问的 Mythos 5 据社区转述出现『部分解禁』,亚洲厂商趁封锁窗口抢推 Mythos-like 模型。一句话:今天没有新模型上线,但『谁追上了、谁被允许上线』这两条暗线都在加速。

2026-06-27 周六 17 则

GPT-5.6 三档齐发首由政府审查放行,开源侧 DSpark 与 GLM-5.2 逼近前沿

OpenAI 发布 GPT-5.6 Sol/Terra/Luna 三档模型,Sol 为迄今最强但首次由美国政府审查用户名单后限量放行;同期 Anthropic Mythos 5 恢复向美国可信机构部署,出口管制空档催生亚洲厂商推 Mythos-like 模型。开源侧两记重拳:DeepSeek DSpark 投机解码无损提速 60-85% 并全栈开源,智谱 GLM-5.2(7440 亿参数/MIT)登顶 Code Arena、距 Claude Opus 4.8 不到 1%。三方真实落地数据——OpenAI 内部 Codex token 占比 10 个月升至 99.8%、Anthropic 调查显示三分之一人认为初级岗位高概率被替代、字节 TRAE 90% 代码 AI 生成但人均吞吐仅 1.6 倍——共同指向同一结论:智能体已渗进专业岗位,但工程化交付仍是瓶颈。

2026-06-26 周五 17 则

GPT-5.6 三档齐发,前沿 AI 进入"政府审批"时代

OpenAI 预览 GPT-5.6——旗舰 Sol、均衡 Terra、低价 Luna 三档齐发,主攻网络安全与长程推理。但与模型同样抢眼的是治理:美国政府要审查谁能用 GPT-5.6 并要求延期,Anthropic 的 Mythos 5/Fable 5 也在政府指令下暂停又部分恢复,前沿 AI 正被纳入国家安全框架。同日 Anthropic 指控阿里非法蒸馏 Claude 能力,DeepSeek 用 DSpark 把推理再提速 80%,Qwen 开源世界模型宣称超 Opus 4.8——开源与闭源、东方与西方的张力全面浮现。

2026-06-25 周四 3 则

Claude Tag 把 AI 嵌进工作流,交互范式开始第三次迁移

这一天,Anthropic 发布 Claude Tag,让 Claude 以团队成员身份加入团队既有的协作工具。一位资深研究者把它称为大模型交互设计的「第三次重构」——从「你要去访问的网站」,到「电脑里的应用」,再到「融入人类活动的持续实体」。同周,另一家头部厂商也在把 AI 往工作流深处推,但路径不同:一家讲「智能体替你做事」,一家讲「它伴你做事」。两条路线的分歧,正在显形。

2026-06-24 周三 12 则

Anthropic 指控阿里「非法蒸馏」Claude 闹进参议院,同一天 Qwen 智能体论文登顶 HuggingFace;agent 研究密集轰炸

本期为历史回溯补档(归档日 2026-06-24,北京时间)。实时社媒与算法推荐流无法回溯,且检索期间 WebSearch 接口不稳定,主线事实依据当日 CNBC 同日报道、HuggingFace 策展论文与公开发布交叉整理,所有数字均可溯源至一手页面;凡仅见于单方信件或自建基准的内容,文中已标注 caveat。当天的硬新闻是 Anthropic 致信美国参议院银行委员会,指控与阿里关联的操作者用约 2.5 万个欺诈账户、2880 万次交互「非法提取」(蒸馏)Claude,称这是它「已知最大的一次蒸馏攻击」;戏剧性的是,指控见报同一天,阿里 Qwen 的智能体论文 Qwen-AgentWorld 以 136 票登上 HuggingFace 当日榜首。除这条「IP 与中美 AI 竞争」主线外,当天 HuggingFace 被 agent 研究刷屏:从长程规划评测(PlanBench-XL)、真实职场基准(EnterpriseClawBench)、经验学习(EDV)到开源数据配方(OpenThoughts-Agent),集体把焦点对准『智能体到底行不行、怎么训才行』。

2026-06-23 周二 12 则

智能体能力被「极限拷问」:长程规划与真实办公评测同日登场,效率派架构集体发力

本期为历史回溯补档(归档日 2026-06-23,北京时间),实时社媒与算法流无法回溯,主要依据当日 HuggingFace 策展论文与可检索到的公开发布整理;检索期间 WebSearch 接口持续不可用,深度选题以一手 arXiv/HuggingFace 论文为主力支撑,事实可溯源。当天没有头部厂商的重磅模型发布,主线落在「智能体到底行不行」的硬核评测上:PlanBench-XL 用 1665 个工具、平均 25 轮的零售任务把前沿模型的长程规划逼到崩溃,EnterpriseClawBench 则把 852 个真实职场会话变成可复现评测,直接给 Claude Code、Codex 等 harness 打分。与此同时,GQE、R-SWA、Confident Decoding 等一批「省算力不掉点」的架构/解码工作集中出现,透露出当下业界对推理成本与可靠性的共同焦虑。

2026-06-22 周一 12 则

Five Eyes 警告前沿 AI「数月内」改写网络攻防,GLM-5.2 续压开源成本,智能体记忆研究扎堆

本期为「AI 早报」历史回溯补档(归档日 2026-06-22,北京时间),实时社媒源无法回溯,内容主要依据当日 HuggingFace 策展论文(一手可溯源材料)与可检索到的公开发布/权威媒体报道整理,带主观判断的部分均已标注置信度。当天最硬的官方事件是 Five Eyes 五国情报与网络安全机构罕见联合发声,警告前沿 AI 将在「数月而非数年」内放大进攻性网络能力;研究侧则呈现明显的「智能体记忆 + 扩散语言模型」聚集,HuggingFace 高赞榜被分层记忆、记忆治理、并行区域感知、长程具身记忆等议题占据。模型与产业线多为聚合媒体单一信源转述(GPT-5.6 预览、Fable 5 出口禁令、Noam Shazeer 转投 OpenAI 等),已逐条降置信处理。