模型之争转入范式之争:Sonnet 5 携促销价登场,GeneBench-Pro 把 AI 智能体拽进科研,Claude Science 把算力调度交到科学家手里
过去 24 小时,OpenAI 与 Anthropic 罕见同日四发:Sonnet 5 携促销价 $2/$10 百万 token 正式登场,Intelligence Index 53 分与 GPT-5.5 同分、逊于 Opus 4.7/4.8;GeneBench-Pro 用 129 道合成题与已知因果结构,把『科学智能体』评估从『答得好不好』推向『能不能做真正的研究决策』;Claude Science 把 60+ 科研连接器、本地/HPC/Modal 算力调度、reviewer agent 自校打包成单一一站式入口;DeepMind 同步双发 Nano Banana 2 Lite($0.034/图)与 Gemini Omni Flash($0.10/秒)。同日 Mythos 出口管制松动信号再起、吴恩达系统阐述『Loop Engineering』三 Loop 框架、Nous Hermes Agent 网页抓取速度提升 60 倍、SGLang DSpark 预测解码实测数据放出、Sonnet 5 也被指嵌入了针对中国用户的隐蔽检测代码。
今天真正改变了什么:前沿模型的『分数之争』让位于『工作流之争』。Sonnet 5 用促销价强推订阅档,把 Sonnet 系列第一次做到『买得起的智能体基座』;Claude Science 用多 agent + 本地/HPC/Modal 算力调度把科研工具栈整合为单一一站式入口;GeneBench-Pro 用合成题与已知因果结构把『科学智能体』的评估从『答得好不好』推向『能不能做真正的研究决策』;Nano Banana 2 Lite + Gemini Omni Flash 把生成式媒体价格砍到 0.034 美元/图与 0.10 美元/秒。OpenAI 与 Anthropic 在 7-01 同日四发,标志着前沿厂商正式进入『拼生态、拼场景、拼工作流嵌入』的阶段,基础模型层的同质化竞争已让位。
本期重点 · 深度报告
5 篇深度调研,点进去看完整分析与多源交叉验证
快讯 · 看标题就懂
10 条次要信号,附早报判断与原始链接
吴恩达系统阐述『Loop Engineering』三 Loop 框架:工程师正在部分承担 PM 角色
吴恩达在 The Batch 中系统阐述『Loop Engineering』——由 Boris Cherny(Claude Code)与 Peter Steinberger(OpenClaw)推火的热词。三 Loop 框架:① Agentic Coding Loop——agent 写代码并自测,分钟级迭代(他用一个女儿练习打字的 app 验证 agent 可独立运行约 1 小时);② Developer Feedback Loop——开发者以十~小时级节奏审产品并指挥 agent,AI 已能自己测代码,开发者从 QA 转向高层产品决策,他强调这是『人类上下文优势』而非『品味』;③ External Feedback Loop——朋友/Alpha 用户/A/B 反馈,天~周级回灌开发愿景。吴恩达判断工程师正部分承担 PM 角色。
吴恩达用框架化语言把过去一年 Claude Code / Codex / Cursor 用户的实践总结为『Loop Engineering』,为『工程师转 PM』的现象提供了可传播的命名,是工程师群体重新理解自身角色的关键参考框架。
工程师:需要把『设计 feedback loop』与『运行 agentic loop』作为新的核心能力,而非纯写代码;创业公司:组织设计需重新评估 PM / Engineer 配比;教育:Coursera / DeepLearning.AI 可能据此推出相关课程。
agent 可独立运行约 1 小时 吴恩达女儿练习打字 app Agentic Coding Loop 验证时长
Loop Engineering 真正的洞察不在『三 Loop』的结构,而在把『开发者 vs PM』的边界显式模糊化——吴恩达把过去 PM 的核心工作(定义产品愿景、把控用户反馈循环)用『Developer Feedback Loop』与『External Feedback Loop』转译到工程师的日常职责上。这意味着 2026 年的工程师岗位正在被结构性重写:不再是『写代码的人』,而是『设计、运行、调优三 Loop 的人』。这套框架与 Cognition Devin Fusion、Claude Code、Anthropic Claude Science 的产品路径完全一致——harness 化的 agent 工程范式。
接下来看:吴恩达后续是否会推出 Loop Engineering 的系统课程 / Boris Cherny / Peter Steinberger 等被引用的实践者是否会扩展三 Loop 的细节
Nous Hermes Agent 网页抓取性能跃升 60x、成本降至 1/49;Step 3.7 Flash MoE 通过 Nous Portal 限时 30 天免费
Nous Research 宣布 Hermes Agent 网页抓取后端升级:读取网页速度提升最高 60 倍、成本降低 49 倍;抓取后端直接将干净内容传给 agent,跳过冗余处理;大页面本地保存、按需分页。同时 Nous Portal 与 StepFun 合作的 Step 3.7 Flash MoE 视觉语言模型限时 30 天免费开放,主打 agent 效率、编码、搜索与多模态工作流。Hermes Agent 还新增 `/usage` 命令可在任意调用点查看用量明细,改进后稳定处理大规模多智能体看板运行与高并发会话。
Hermes Agent 是当前少数提供『速度 + 成本 + 多 agent 看板』三角能力的开源 agent,且网页抓取 60x 是少见的『工具调用层』优化案例,对所有自建 agent harness 的团队有借鉴价值。
自建 agent 团队:网页抓取后端的成本与延迟是隐性瓶颈,Nous 的做法值得借鉴;开源模型阵营:Step 3.7 Flash 限时免费是 OpenRouter 之外的另一获客路径;Nous Portal:作为『开放 + 限时免费』的新分发模式,可能成为继 OpenRouter 之后的中立平台选项。
读取速度 60x / 成本 1/49 Hermes Agent 网页抓取性能提升
30 天限时 Step 3.7 Flash 免费开放时长
Nous 把『网页抓取』这一常被忽视的 agent 基础设施环节做了 60x 性能优化——这揭示了一个常被低估的事实:在 agent harness 中,『工具调用』本身的成本与延迟往往远超『模型推理』,且常是隐性瓶颈。Step 3.7 Flash 限时 30 天免费则是 Nous 在『开源 vs 闭源』之外的第三条路——『开放 + 限时免费』的获客路径,与 Sonnet 5 促销价的逻辑异曲同工,但成本承担方不同。
接下来看:Step 3.7 Flash 30 天限时结束后的实际定价 / Hermes Agent 多智能体看板的稳定性第三方评测
SGLang DSpark 预测解码实测数据放出:多场景预测 3 token,1K prompt 加速比 1.81x,8 卡 B200 速度 164→297 token/s
SGLang 的 DSpark 预测解码实测数据在 PR29538 放出:多场景基本能预测 3 个 token(数学 3.37 / 对话 3.0 / 代码 3.52)。1K prompt 下加速比 1.81x,8 卡 B200 速度从 164 token/s 拉到 297 token/s。TPOT 仅 2.9-5.2ms,DSpark 神经网络层延迟可忽略。超过 8 并发收益降至 1.2-1.3x(GPU 已打满)。注:PR29538 尚未合并。这是继 DeepSeek 开源 DeepSpec(含 DSpark/DFlash/Eagle3 三种草稿模型)之后,DSpark 在 SGLang 推理引擎上的第一次完整数据披露。
DSpark 第一次给出在 SGLang 上的完整实测数据,且与 DeepSeek 自报口径的差异值得追问——投机解码的实际效果决定开源推理引擎的下一阶段能力。
vLLM:需回应 DSpark 在 SGLang 上的加速数据,是否会被移植;推理框架团队:投机解码与高并发调度的权衡是下半年重点;DeepSeek:开源 DeepSpec 是其『推理生态影响力』的重要拼图,DSpark 上游合并进度值得关注。
数学 3.37 / 对话 3.0 / 代码 3.52 DSpark 多场景预测 token 数
1.81x / 8卡B200 164→297 token/s DSpark 1K prompt 加速比与吞吐
DSpark 在 SGLang 上的实测数据揭示了『投机解码』的工程边界:1.81x 加速比与 3 token 预测长度,比 DeepSeek 自报的 60-85% 提速口径更保守——说明 DeepSeek 自报口径与第三方实测之间存在显著差异,这正是 6-28 DSpark 深度页里就指出的 caveat。同时『超过 8 并发收益骤降』的瓶颈提示:SGLang 与 vLLM 在投机解码与高并发调度之间的取舍,会成为下半年推理引擎的主战场。
接下来看:PR29538 合并进度与 SGLang 正式版本集成时间表 / vLLM 是否会移植 DSpark / Eagle3 的预测解码实现
Mythos 出口管制增量:POLITICO 转述 Fable 5 解除管制预期,官方未坐实;Fable 仍全面禁止
据 POLITICO 转述(@SophiaCai99 / @AggrNews),美国商务部预计 6-30 晚解除对 Anthropic 模型 Fable 的出口管制。AggrNews 与 ZOOMER 都转发了同一消息。这是继 6-12 Mythos 5/Fable 5 全面暂停、6-28 转述 Mythos 5 部分解禁(限定三类对象)之后的又一次政策松动信号。Fable 5 是否解除管制,OpenAI 的 Fable 是否同样解除(目前被管制名单只有 Anthropic 与 OpenAI 两家),是观察前沿 AI 国家安全框架走向的关键指标。6-28 早报已写过 Mythos 全量深度页,本期只做增量追踪。
出口管制是前沿 AI 国家安全框架的核心抓手,Fable 5 据传解除是『双轨制』政策的第一个可观察松动信号,直接关系到 Anthropic 的全球商业化节奏与亚洲厂商的窗口期。
Anthropic:Fable 5 解除后对美可信机构的访问恢复,商业化收入有望提速;亚洲厂商:抢推 Mythos-like 模型的窗口期可能在 7 月中下旬收窄;OpenAI:Fable 是否同步解禁是观察『双轨制』是否对称的关键。
6-12 全面暂停 → 6-28 Mythos 5 部分解禁 → 6-30 Fable 5 据传解除 出口管制时间线
Mythos 出口管制正从『全面暂停』走向『分对象解禁』的精细化阶段——先放开 Mythos 5 给三类对象(自家研究员/可信合作伙伴/政府机构),Fable 5 据传 6-30 晚跟进,意味着 Anthropic 的两条旗舰线可能在 7 月初全部恢复对美可信机构的访问。但『对美解禁 ≠ 对华解禁』,亚洲厂商趁封锁窗口抢推 Mythos-like 模型的窗口期(6-28 已观察到 360 / Sakana)可能在 7 月中下旬收窄。OpenAI 的 Fable(同名但不同公司)是否同步解禁,是观察白宫对前沿模型『双轨制』的关键。
接下来看:美国商务部 / Anthropic 官方对 Fable 5 解除管制的正式公告 / OpenAI Fable 是否同步解禁(目前被管制名单只有 Anthropic 与 OpenAI 两家)
Meta Brain2Qwerty v2 增量:开源训练代码 + BCBL 发布 v1 数据集,9 名志愿者平均词准确率 61% / 最佳 78%
Meta AI 转发 Jean-Remi King:Brain2Qwerty v1 已在 Nature Neuroscience 发表,Brain2Qwerty v2 已开源(v2 在 v1 基础上加入并改进了更鲁棒的语言模型/神经解码 pipeline)。这是继 6-29 Nature 发表后的开源代码 + 数据集同步释放——Meta 走的是『论文 + 代码 + 数据』三件套路线。HN 64 分热帖补充关键事实:这是首个能从原始 MEG 脑信号端到端实时解码整句的非侵入式 BCI,9 名志愿者平均词准确率 61%、最佳 78%。6-29 早报已写过全量增量,本期为延续报道。
Brain2Qwerty v2 是『首个能从原始 MEG 端到端实时解码整句的非侵入式 BCI』,开源代码 + 数据集意味着可复现性,与 OpenAI 的闭源路线形成对比。
BCI 研究者:可立即基于 v1 数据集与训练代码复现实验,加速 BCI 领域迭代;Meta:通过『论文 + 代码 + 数据』三件套建立 BCI 领域的开放标准,与 OpenAI 的闭源路线分化;医疗设备厂商:需评估非侵入式 BCI 何时进入医疗级监管路径。
平均 61% / 最佳 78% Brain2Qwerty v2 词准确率
64 分 / 38 评论 Brain2Qwerty HN 热帖分数
增量看点是『开源代码 + 数据集』与『Nature 论文』的同步释放——Meta 用『三件套』路线把 Brain2Qwerty 变成可被全球 BCI 研究者复现的基线,这与 OpenAI 形成鲜明对比。但需注意:BCBL v1 数据集是首发 v1,而 v2 数据是否开源尚未提及——若 v2 数据不开放,则『全栈开源』叙事会出现裂缝。这是观察 Meta 在 BCI 领域『论文 PR vs 真正可复现』的关键判断点。
接下来看:Brain2Qwerty v2 数据集是否开源(v1 已开源) / 第三方研究团队基于 v1 数据集复现实验的论文何时出现
arXiv 高引论文:Agentic Abstention——智能体在『何时不行动』上比通用模型差 30 个百分点
arXiv 2606.28733《Agentic Abstention: Do Agents Know When to Stop Instead of Act?》获 Hugging Face 120 分(本日 arXiv 候选最高),核心发现:智能体在『何时该停止 / 不该行动』上的判断能力比通用模型低约 30 个百分点。这是 agent harness 范式被广泛采用后的第一个『反例』研究——『行动能力』与『克制能力』不是同向增长,智能体越能执行就越容易过度执行。
arXiv / HF 当日最高分(120)的 agent 安全论文,在 harness 化产品大爆发的当口提出『克制能力』缺口,可能成为下半年 agent 安全的核心理论文献。
agent harness 厂商:Claude Code / Devin / Claude Science 等需把『abstention』加入评测矩阵;企业买方:agent 失败模式的预期需要从『答错』转向『过度执行』;AI 安全研究:agentic alignment 成为新前沿,reviewer agent / guardrail agent 的产品形态将被验证。
120 分(本日 HF 候选最高) Agentic Abstention HF 分数
比通用模型低约 30 个百分点 智能体 abstention 能力差距
这篇论文是 6 月 Claude Code / Devin Fusion / Claude Science 等 harness 化产品大爆发之后的第一个反向警示——『克制能力』(abstention)是 agent 安全的核心,但所有 harness 产品的优化目标都偏向『行动』。HF 120 分高引说明 agent 安全研究社区已意识到这个缺口。下半年最可能出现的 agent 失败模式不是『答错题』而是『做了不该做的事』,这会推动『guardrail agent』『reviewer agent』(如 Claude Science 已采用)成为标配。
接下来看:该论文是否被 NeurIPS / ICML 2026 接收 / Claude Science reviewer agent / Claude Code 自校机制能否实测提升 abstention
LongCat-2.0 / GLM 5.2 设计任务实测:几乎所有类目击败 Opus 4.8,LongCat 物理任务表现优于 Opus 4.8 / GLM 5.2
Command Code 用 /design 在 SaaS、作品集、仪表盘、建筑站、宠物店、房地产等设计任务上跑测试,GLM 5.2 在几乎所有类目上击败 Opus 4.8;LongCat-2.0 在真实物理任务(HTML5 canvas 写物理模拟:加农炮拆墙、保龄球击瓶、龙卷风卷物)上对标 Opus 4.8 与 GPT 5.5 表现,LongCat 物理效果优于 Opus 4.8 与 GLM 5.2(无穿模/掉落),细节与渲染与 GPT 5.5 持平;LongCat 18,015 tokens / $0.00、Opus 4.8 18,872 / $0.48、GPT 5.5 32,588 / $0.98、GLM 5.2 31,062 / $0.09。GLM-5.2 成为 Z.ai 在 Hugging Face 历史上最受好评的模型。Qwen3.6 27B 在某种设置下把自家 35B A3B 吊着打。
这是 6-28 『开源追平闭源』叙事的第一次具体场景验证,GLM 5.2 在设计任务上击败 Opus 4.8 是『能力可比 + 价格仅 1/5』的双重背书。
设计工具厂商:Command Code 等垂直 agent 工具会进一步把 GLM 5.2 / LongCat 推到默认模型位置;开源阵营:『能力可比 + 价格碾压』的双重优势会让更多企业买方迁移;Opus 4.8 等闭源旗舰:在垂直场景的领先优势会被进一步压缩。
18,015 tokens / $0.00 LongCat 物理任务 token / 价格
LongCat 优于 Opus 4.8 / GLM 5.2,与 GPT 5.5 持平 LongCat 物理任务表现对比
GLM 5.2 / LongCat-2.0 / Qwen3.6 27B 的实测数据,共同把『开源追平闭源』从 6-28 OpenRouter Insights 的判断推进到具体场景验证:设计任务几乎全面击败 Opus 4.8,物理任务优于 Opus 4.8 / GLM 5.2。这是继 6-28 『3-6 个月差距稳定』之后的第一次具体场景验证——但需注意:这些测试是 Command Code / atomic_chat 等单一第三方,在 SaaS / 物理模拟这种垂直场景下的样本,不构成全面评测。Qwen3.6 27B 把自家 35B A3B 吊着打则说明『小模型靠精调跑赢大模型』的现象已经在阿里内部出现。
接下来看:GLM 5.2 / LongCat-2.0 在第三方综合基准(Artificial Analysis / LiveBench / Aider)上的全面表现 / Command Code /design 是否发布跨模型的可复现测试套件
Mistral 发布 Leanstral 1.5:HN 36 分,聚焦推理 / 代码 / 长上下文
Mistral 发布 Leanstral 1.5 模型,在 HackerNews 获得 36 分与 1 条评论(冷启动期)。模型卡片聚焦推理、代码与长上下文能力。这是 Mistral 在『前沿智能体』叙事之外的『性价比推理』路径上的更新——Leanstral 系列定位介于旗舰与开源权重之间,与 GLM 5.2 / Qwen3 / DeepSeek V4 系列在中端市场正面对决。
Mistral 是欧洲唯一有持续模型发布的厂商,Leanstral 1.5 是观察其『前沿 vs 性价比』定位选择的关键产品。
欧洲企业买方:Leanstral 是符合欧盟数据合规的少数前沿选择;中端模型市场:Leanstral 1.5 与 GLM 5.2 / Qwen3 / DeepSeek V4 在 2026 H2 将形成更激烈的正面对决;Mistral:定位选择决定下一阶段融资估值。
36 分 / 1 评论 Leanstral 1.5 HN 分数
Leanstral 1.5 在 HN 上仅 36 分与 1 条评论,远低于 Sonnet 5(35 分 / 16 评论)与 Brain2Qwerty(64 分 / 38 评论)——说明 Mistral 在前沿智能体叙事中已显著掉队,Leanstral 系列在中端市场的差异化卖点是『价格 + 长上下文』,而非『前沿能力』。Mistral 下一阶段需要决定:是继续在『中端性价比』打深,还是回追前沿智能体。
接下来看:Leanstral 1.5 在 Artificial Analysis / LiveBench / Aider 等第三方基准的具体表现 / Mistral 是否在 7 月公布 2026 H2 的产品路线图
GitHub Trending 上榜项目:winsznx/theeleven(AI 自主开足球盘)、benchflow-ai/awesome-evals、lycorp-jp/sim-use、eli-labz/Godcoder
本日 GitHub 高分候选(均 200+ stars):① winsznx/theeleven(691★)——11 个自主 AI 智能体在 X Layer 开放足球 prop 盘,自定义 Uniswap v4 hook、gasless USDT0 staking;② benchflow-ai/awesome-evals(606★)——策划的非 BS AI 智能体评估资源库,论文/博客/工具/基准;③ TianhangZhuzth/Fundamental-Ava(588★)——构建数字人自主协作社交智能体;④ Pluviobyte/video-production-skills(481★)——AI 视频制作可复用技能库;⑤ lycorp-jp/sim-use(326★)——给 AI 智能体 iOS Simulator 与 Android 模拟器/真机的『眼睛与手』;⑥ eli-labz/Godcoder(254★)——本地优先开源编码智能体,自带 LLM key、代码留在本地;⑦ hanlinwenyuan/hlwy-ai-checker(203★)——检查第三方 AI API 是否掺假与渠道一致性。
GitHub Trending 是观察 agent 工程范式分化的最直接指标,本日高分候选共同揭示『agent 经济 + agent 评估 + 本地优先』三个趋势。
开源 agent 生态:本地优先(Privacy-first)与自主经济(Autonomous agent economy)将成为下一阶段重点;企业买方:agent 评估资源库是建立内部评测矩阵的参考;crypto / DeFi:链上 AI agent 是与现实世界资产结合的新前沿。
691★ theeleven GitHub stars
606★ awesome-evals stars
本日 GitHub Trending 揭示三个趋势:一是『自主 agent 经济』(theeleven 691★ 在链上开足球盘)——agent 从『工具』走向『经济主体』;二是『agent 评估』(awesome-evals 606★)——agent 安全与 abstention 论文后,评估资源库同步爆发;三是『本地优先』(Godcoder 254★、sim-use 326★)——隐私与可控性驱动 agent 部署回归本地。这三个趋势共同指向:agent 范式从『云端 SaaS』走向『本地 + 经济主体』的双向分化。
接下来看:theeleven 在 X Layer 上的实际足球盘交易量与合规进展 / awesome-evals 资源库的更新频率与社区贡献者画像
Anthropic Claude Code 被指嵌入针对中国用户的隐蔽检测代码:时区 / 代理 / 中国 AI 域名指纹写入 prompt 回传
BREAKING 转载:Anthropic 在 Claude Code 中嵌入了针对中国用户的隐蔽检测 / 类似间谍代码。当用户使用非官方代理时,会悄悄收集时区、代理、中国 AI 实验室域名等信息,并通过修改日期格式等隐写手法把指纹写进 prompt 发回后端。原报道(@IntCyberDigest / @oragnes 转述)给出来源待核实,目前未有 Anthropic 官方回应,事实尚未坐实。
若属实,这是 Anthropic 在『地域合规』上第一次被公开指控使用隐蔽检测代码,直接影响中国用户对 Claude Code 的信任与代理生态走向。
中国用户:Claude Code 代理生态可能受影响,需重新评估使用风险;Anthropic:需要官方澄清技术细节,否则中国市场份额可能受损;国际安全研究:这是 AI 工具『合规 vs 隐私』边界的标志性案例。
@IntCyberDigest / @oragnes X 转述 指控转述来源
这条指控若属实,意味着 Anthropic 在 Claude Code 中建立了『地域 + 行为』双重指纹机制——通过日期格式隐写把指纹写进 prompt,是一种相当成熟的反检测工程。这与 Anthropic 自身的政策声明(6-12 Mythos/Fable 出口管制配合)方向一致:在合规框架下对『受限用户』做精细化区分。但指控本身的来源是单一国际安全媒体转述,缺乏独立第三方验证,且 Anthropic 尚未回应。需等待官方公告或独立安全研究跟进。
接下来看:Anthropic 官方对该指控的回应 / 独立安全研究者(看雪 / FreeBuf / Hacker News)对该指控的复现验证
推特上在讨论什么
精选 10 条从业者发言,点"原帖"看一手出处
Google 在 Gemini API 与 AI Studio 推出两款生成式媒体模型:Nano Banana 2 Lite(单图 <4 秒、$0.034/1K image)与 Gemini Omni Flash(视频编辑 SOTA,$0.10/秒与 Veo 3.1 Fast 同价)。
原帖 ↗Anthropic 正式发布 Claude Sonnet 5:迄今最 agentic 的 Sonnet,推理/工具/编程/知识工作全面升级,性能逼近 Opus 4.8 但价格更低。限时优惠(至 8-31)输入 $2/M token、输出 $10/M token。Claude Code、Free/Pro 用户默认模型,已集成 GitHub Copilot、Notion、Cursor、Devin。
原帖 ↗Claude Sonnet 5 评测:Intelligence Index 53 分(max effort),比 Sonnet 4.6 高 6 分,与 GPT-5.5(high reasoning)同分,落后 Opus 4.7/4.8,榜上排第 5。提醒:去掉促销定价后 Sonnet 5 单任务成本反而高于 Opus 4.8。
原帖 ↗成本对比:Sonnet 5 比 Opus 4.8 Max 贵 1.2x、比 GPT-5.5-xhigh 贵 2x、比 GLM-5.2 贵 5x、比 Kimi-K2.6 贵 7x、比 DeepSeek-V4-Pro 贵 57x。原话『Sonnet 5 goes straight into the garbage bin』。
原帖 ↗独立确认:Sonnet 5 在 Artificial Analysis Intelligence Index 上单任务成本『MORE than Opus 4.8』,呼应 ArtificialAnlys 的结论。
原帖 ↗Sonnet 5 单 benchmark 全面输给 Opus 4.8,但仍推荐 Claude Code 的 Dynamic Workflows:/model Sonnet 5 + /effort Ultracode 让复杂任务跑动态工作流。预判:Fable 5 解封后会成为『超级智能顾问』,Sonnet 5 充当『快速实现者』。
原帖 ↗据 POLITICO:美国商务部预计今晚解除对 Anthropic 模型 Fable 的出口管制。后续 ZOOMER 也转发了同一消息。
SophiaCai99:🚨 NEWS: Commerce is expected to lift export controls on Fable tonight, a senior White House official...原帖 ↗
GLM-5.2 成为 Z.ai 在 Hugging Face 历史上最受好评的模型。
原帖 ↗用 /design 在 Command Code 跑 SaaS、作品集、仪表盘、建筑站、宠物店、房地产等设计任务,GLM 5.2 在几乎所有类目上都击败 Opus 4.8。
原帖 ↗LongCat 在真实物理任务(HTML5 canvas 写物理模拟:加农炮拆墙、保龄球击瓶、龙卷风卷物)上对标 Opus 4.8 和 GPT 5.5:LongCat 18,015 tokens / $0.00,Opus 4.8 18,872 / $0.48,GPT 5.5 32,588 / $0.98,GLM 5.2 31,062 / $0.09。LongCat 物理效果优于 Opus 4.8 和 GLM 5.2(无穿模/掉落),细节与渲染与 GPT 5.5 持平。
Meituan_LongCat:Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context,背后是 OpenRouter 的 Owl Alpha。从头为 agentic coding 设计:LongCat Sparse Attention (LSA) 支持 1M 上下文高效扩展,Zero-Compute Experts 动态激活。原帖 ↗