最新一期 第 7 期 · 共 14 条信号
2026年6月28日
周日 · 过去 24 小时的 AI 世界

官方按下暂停键的一天:GPT-5.6 三档预览余热未散,看点转向开源追平与 Mythos 出口管制松动

过去 24 小时,OpenAI 与 Anthropic 官博都没有新的重磅发布——GPT-5.6 Sol/Terra/Luna 三档预览是 6-26 的余热,Claude Tag 进 Slack 是 6-23 的延续。真正的当日动态集中在社区与开源侧:OpenRouter 抛出『开源与闭源前沿差距稳定在 3-6 个月、18 个月没被拉开』的判断,DeepSeek 开源投机解码全栈库 DeepSpec,Coinbase 把默认模型换成开源权重后 AI 支出近乎减半;政策面上,被华府暂停访问的 Mythos 5 据社区转述出现『部分解禁』,亚洲厂商趁封锁窗口抢推 Mythos-like 模型。一句话:今天没有新模型上线,但『谁追上了、谁被允许上线』这两条暗线都在加速。

本期判断

官方零重磅:GPT-5.6 三档是余热、Claude Tag 是延续;当日真看点在开源追平(差距稳定 3-6 个月)、DeepSeek 开源 DeepSpec、Mythos 出口管制据传部分解禁。

5深度报告
9快讯新闻
13推特讨论
Deep Dives

本期重点 · 深度报告

5 篇深度调研,点进去看完整分析与多源交叉验证

Briefs

快讯 · 看标题就懂

9 条次要信号,附早报判断与原始链接

行业动态 重要度 3/5 低置信 发展中

SpaceX 收购光互联公司 Mesh:为 AI 数据中心与轨道算力铺路

据 @qinbafrank 深度拆解,SpaceX 收购光互联公司 Mesh(已获 FTC 快速批准)。Mesh 由三位前 SpaceX 工程师 2025 年创立,创始人曾主导 Starlink 星间激光链路设计,核心产品是面向 AI 数据中心的高速光学收发器(用光代替电信号互联)。收购动机:收回核心人才与技术、解决 AI 数据中心互联的功耗/速度瓶颈(光互联被视为下一代方案)、为太空算力(轨道数据中心,最早 2028 部署)铺路。SpaceX 截至 3 月已部署超 2.3 万个星间激光器,引用推文还提到 SpaceX 已与 Anthropic、Google 签算力合同。

Why

AI 算力竞赛正向最底层的物理互联(光互联)延伸,SpaceX 凭星间激光技术切入 AI 数据中心互联是一条难以复制的垂直整合路径。

Impact

对 AI 基础设施:光互联可能成为突破数据中心功耗/带宽墙的关键;对格局:SpaceX 从发射服务商向 AI 基础设施玩家延伸,且已绑定 Anthropic/Google 算力合同。

早报判断

这条把『AI 算力竞赛』的战线从模型和芯片往下拉到了最底层的物理互联。当数据中心规模逼近功耗与带宽墙,GPU 之间、机柜之间的互联效率成了新瓶颈,光互联(硅光/光学收发器)正是被押注的下一代方案。SpaceX 收购 Mesh 的真正野心藏在『轨道数据中心』那句里——把星间激光链路的现成技术(已部署 2.3 万个激光器)迁移到地面 AI 数据中心互联,再反向铺向太空算力,是一条别人很难复制的垂直整合路径。叠加它已与 Anthropic、Google 签算力合同,SpaceX 正在从『发射服务商』悄悄变成『AI 基础设施玩家』。需要提醒:这条主要基于单一分析推文,轨道数据中心 2028 部署等是远期愿景而非既成事实。

行业动态 重要度 3/5 中置信 发展中

Coinbase 工程拆解:AI 支出砍半靠自建 LLM 网关 + 换默认模型 + 缓存路由

据 @markletree 转述 Coinbase 工程实现细节:本季度 AI 支出几乎砍半、token 用量持续攀升,全部请求走自建 LLM 网关(单一端点 + 格式,跨厂商故障转移、脱敏、日志、成本管控)。三招省钱:(1)更便宜的默认模型——91% 员工根本碰不到用量上限,于是不降配额、改默认廉价模型(据 CEO Brian Armstrong 称在试用 GLM 5.2、Kimi 2.7 等开源权重);(2)缓存——在 LibreChat 把命中率从 5% 拉到 60%;(3)缓存感知路由——对话缓存热时保持同一模型,TTL 失效后才重新选最优模型。

Why

为『企业大规模换开源模型省钱』提供了少见的工程级细节,且揭示成本杠杆在架构(网关/缓存/路由)而不只在模型单价。

Impact

对企业 LLMOps:给出可复制的省钱组合拳(自建网关 + 高缓存命中 + 缓存感知路由);印证『低价激发用量』而非单纯削减预算。

早报判断

这是『开源追平』那条主线最硬的需求侧证据——而且它比『换个便宜模型』复杂得多。Coinbase 的关键洞察是:省钱的杠杆不只在模型单价,更在工程架构(网关 + 缓存命中率 + 缓存感知路由)。把缓存命中率从 5% 拉到 60% 这一招,价值可能不亚于换模型本身,因为它直接决定了每次请求要为多少 token 付全价。这条也给所有想复制 Coinbase 路线的企业提了个醒:换开源默认模型是入场券,真正把成本压下来的是围绕它的整套 LLMOps 工程。同时『支出砍半但 token 用量仍涨』再次验证:低价不是用来省钱的,是用来买更多 agentic 调用的——这正是开源把 frontier 能力打到白菜价后,需求被进一步激发的样子。

行业动态 重要度 3/5 中置信 发展中

GitHub 涨星榜:agent skill 包与 context 文件正成为新的开发者 dotfiles

据 @sharbel 整理,本周 GitHub 涨星最快的 10 个仓库主题集中在『agent skill 包与 context 文件正成为新的开发者 dotfiles』:OpenMontage(+17.2K,首个开源 agentic 视频制作系统,12 条 pipeline/52 工具/500+ agent skills)、skills(+11.1K,来自作者 .claude 目录的工程师 skills)、codebase-memory-mcp(+7.6K,把代码库索引成持久知识图谱,158 种语言、亚毫秒查询、省 99% token)、Agent-Reach(+7.2K,给 agent 读/搜 Twitter/Reddit/YouTube/B站等)、Anthropic-Cybersecurity-Skills(+5.1K,817 个安全 skill 映射 MITRE ATT&CK 等 6 套框架)。另据 @zrebroia,一个让 Claude『像最懒资深工程师那样编码』的 skill 一周冲到 5.8 万星、2.9k fork,宣称代码量少 54%、便宜 20%、快 27%。

Why

揭示用 agent 的核心竞争力正从『选模型』转向『配 skill 与上下文』,skill 生态成为 agent 工具新的差异化战场。

Impact

对开发者:可移植、可分享的 agent skill 包正成为新的生产力资产;对工具厂商:skill/context 生态的丰富度成为留住用户的关键。

早报判断

『agent skill 正成为新 dotfiles』这个判断很到位:过去开发者攒的是 .vimrc、.zshrc 这类个人配置,现在攒的是 .claude 目录里的 skill 和 context 文件——可移植、可分享、可版本控制的『agent 能力包』。这背后是一个范式转移:用 agent 的核心竞争力,正从『选哪个模型』转向『给它配哪套 skill 和上下文』。codebase-memory-mcp『省 99% token』和那个『少 54% 代码』的 skill 之所以能爆火,恰恰因为它们直击了 agentic 编码最痛的成本与上下文管理问题。需要注意的是,star 数是热度而非质量背书,『少 54% 代码、便宜 20%』这类宣称缺乏第三方验证,但趋势本身——skill 生态正在成为 agent 工具的差异化战场——是扎实的。

研究论文 重要度 3/5 中置信 官方源

论文:67 个前沿模型实测,Routing/Voting/MoA 的『协同失效上限』

一篇 arXiv 论文(When Does Combining Language Models Help?)在 67 个前沿模型上系统分析了 Routing、Voting、Mixture-of-Agents 三类『组合多模型』策略,提出『协同失效上限(Co-Failure Ceiling)』:当被组合的模型倾向于在同一批样本上同时犯错时,无论怎么路由、投票或混合,集成收益都存在一个由共同失败决定的天花板。

Why

为正在升温的 multi-agent/MoA 路线提供了一个冷静的理论边界——集成收益受成员『共同失败』封顶,而非取决于组合策略的精巧。

Impact

对做多智能体/模型集成的团队:提示应优先优化成员模型的『错误多样性』,而非盲目堆模型或调路由策略。

早报判断

这篇给当下火热的 multi-agent / MoA 叙事泼了一盆必要的冷水。业界默认『多个模型一起上总比单个强』,但这篇用 67 个模型的大规模实证指出:集成的收益不取决于你用了多巧妙的路由或投票,而取决于成员模型的错误是否相关——如果大家在同样的难题上一起翻车,再复杂的组合也救不回来。这与早报此前覆盖过的 EDV『自我确认陷阱』遥相呼应:多智能体系统的护城河不在『数量』或『拓扑』,而在成员之间的『错误多样性』。对正在堆 MoA 架构的团队,这是一个该停下来量一量『成员失败相关性』的提醒——盲目加模型可能只是在为相关的错误付更多算力。

研究论文 重要度 3/5 中置信 官方源

论文:LLM 自动简历筛选可被提示注入攻破,单注入与多注入实测

一篇 arXiv 论文(Prompt Injection in Automated Résumé Screening with Large Language Models)研究用 LLM 做自动简历筛选时的提示注入攻击,在『单注入』与『多注入』两种设置下实测——求职者可在简历中嵌入隐藏指令操纵 LLM 的筛选/打分结果,从而不公平地抬高自己的通过率。

Why

把 prompt injection 从演示推进到就业公平/企业合规的高利害真实场景,揭示『LLM 读外部不可信文本做决策』这类流程的普遍风险。

Impact

对用 LLM 做简历初筛/文档决策的企业:输入侧指令隔离与注入检测成为合规必需;对 agent 安全:能力越自主,被注入操纵的后果越严重。

早报判断

这是 prompt injection 从『安全研究者的演示』落到『高利害真实场景』的一个典型案例。简历筛选直接关系到就业公平和企业合规,而越来越多公司在用 LLM 做初筛——这意味着攻击面已经实实在在地存在于招聘流水线里。论文区分单注入与多注入,说明攻击不是非黑即白,而是有强度梯度的。它的现实意义大于学术意义:任何把 LLM 接入『读取外部不可信文本并据此做决策』的流程(简历、合同、用户提交内容),都继承了同一类风险。对企业的提示很直接——在 agent 读取外部文档做决策的链路上,输入侧的指令隔离和注入检测不是可选项。这也和早报关注的 agent 安全主线一脉相承:能力越强、越自主,被注入操纵的后果越严重。

产品上新 重要度 2/5 高置信 官方源

OpenAI Codex 本周体验更新:长线程滚动更顺、复制到 Slack 保留 Markdown

据 @OpenAIDevs / @thsottiaux,Codex 本周落地一批体验改进:超长对话线程滚动更顺滑、浏览时阅读位置不再跳动;线程切换后台开销降低、可加载更深本地历史;从 Codex 复制内容粘贴到 Slack 时完整保留 Markdown(列表/加粗/代码块/链接)、大段粘贴不再卡 UI;新增可悬停的导航栏轮次预览、设置搜索覆盖更多控件,以及一个 Pets 面板。@thsottiaux 推文 1949 赞、@OpenAIDevs 2967 赞。

Why

佐证 Slack 工作流入口正成为 coding agent 的兵家必争之地,且竞争从能力转向体验细节。

Impact

对 Codex 用户:长线程与跨工具(Slack)协作体验改善;对竞品:体验打磨成为能力收敛后的新差异化维度。

早报判断

这批更新看着琐碎,但方向值得注意:OpenAI 在抢 Slack 这个工作流入口——『复制到 Slack 保留 Markdown』和同周 Anthropic Claude Tag 进 Slack 是同一战场的两种打法,一个把 Agent 直接驻进频道,一个优化『从 IDE 到 Slack』的内容流转。当各家旗舰能力差距收敛,产品体验(长线程不卡、粘贴不丢格式)这种『最后一公里』的打磨会越来越成为留住开发者的护城河。Pets 面板这种小彩蛋也透露出 Codex 在往『日常陪伴型工具』而非纯命令行工具演化。

产品上新 重要度 2/5 中置信 发展中

OpenCode v2 发布:TUI / 桌面 / Web 多端共享同一后端,默认全部同步

据作者 @thdxr(推文 3348 赞),OpenCode v2 让 TUI、桌面端和 Web 端的所有实例共享同一个后端,默认全部同步——无论开多少个窗口,资源占用都被压到最低。

Why

反映开源 coding agent 在架构上向『多端共享后端、状态默认同步』收敛,降低多设备协作摩擦。

Impact

对 OpenCode 用户:多窗口/多设备资源占用下降、状态一致;对生态:『共享后端』可能成为下一代 agent 工具的默认架构。

早报判断

这是 coding agent 工具走向『多端一致』的一个务实信号:开发者越来越常在终端、桌面 App 和浏览器之间来回切,各端各跑一份后端既费资源又导致状态不一致。OpenCode v2 把后端单一化、状态默认同步,等于把『一个 agent session』从某个具体窗口里解放出来,成为可以多处接入的共享资源——这和 Claude Tag『一个频道一个共享 Claude、任何人可接力』在理念上同源,都是把 agent 从『单点工具』变成『可共享的常驻服务』。对独立开发者和小团队,这种架构能显著降低多设备协作的摩擦。

研究论文 重要度 2/5 中置信 官方源

论文:世界模型的幻觉是可预测、可预防的

一篇 arXiv 论文(Hallucination in World Models is Predictable and Preventable)研究世界模型(用于 agent 规划/仿真的环境预测模型)中的幻觉问题,主张这类幻觉并非随机不可控,而是可预测、可预防的,并给出相应的识别与抑制方法。

Why

直击『世界模型当可控模拟器替代真实环境训 agent』这条路线的命门——模拟器自身的幻觉可控性,决定该范式能否落地。

Impact

对押注模拟环境降低 agent 训练成本的团队:若幻觉可预测可预防,世界模型作为 RL 环境的可靠性就有了工程抓手;方法泛化性待第三方验证。

早报判断

这条接在 Qwen-AgentWorld 等『把世界模型当 agent 训练第一性目标』的热潮之后,问到了点子上:如果要用世界模型做可控模拟器来替代真实环境训练 agent,那模拟器自己会不会『幻觉』出不存在的状态转移,就是整条路线成立与否的命门。如果幻觉真的可预测、可预防,意味着世界模型作为 RL 训练环境的可靠性有了工程抓手——这对正在押注『模拟环境降低 agent 训练成本』的团队是结构性利好。但『可预测可预防』是论文主张,具体方法的泛化性和在大规模复杂环境下的有效性,仍需第三方在真实 agentic 任务上验证。它和 MoA 协同失效那篇一样,代表当下研究正从『造更强的 agent 组件』转向『搞清楚这些组件何时、为何失效』——这种把失效模式量化、可控化的工作,往往比再刷一个 SOTA 更有长期价值。

行业动态 重要度 2/5 中置信 发展中

awesome-evals 等开源资源升温:Agent 评测正从『刷榜』走向工程化基础设施

本周 GitHub 多个 agent 工具/资源升温:benchflow-ai/awesome-evals(544★,Agent 评测论文/工具/基准精选库)、eli-labz/Godcoder(245★,本地优先开源编码 agent,代码不离机)、NotASithLord/peerd(202★,首个浏览器原生 agent harness)、lightbearco/tupper(128★,本机安全运行不可信 AI 生成代码的沙箱)。另有 @omarsar0 推荐的 LLM-as-judge 论文 BINEVAL(842 赞):把评估标准拆成原子化是/否问题逐题独立判断再聚合,可精确诊断输出为何低分,在 SummEval/QAGS 等无需训练即匹敌或超过 G-Eval。

Why

agent 评测与安全运行正从『刷榜』升级为工程化基础设施赛道,反映 agent 走向生产后对『严肃评测 + 安全运行』的刚需。

Impact

对 agent 开发者:可复用的评测库、沙箱、浏览器 harness 降低了『严肃评测 + 安全运行』的门槛;对评测社区:LLM-as-judge 向可诊断、可反哺改进演进。

早报判断

把这几个项目放在一起看,一条清晰的趋势浮现:agent 评测与运行环境正在从『跑个 benchmark 报个分』变成一类正经的工程基础设施。awesome-evals 这种精选库的走红,说明社区开始系统性沉淀『怎么评测 agent』的知识;tupper(沙箱)、peerd(浏览器 harness)、Godcoder(本地优先)则各自补上 agent 安全运行的一块拼图——尤其 tupper 直击『AI 生成代码不可信怎么安全跑』这个随 coding agent 普及而愈发尖锐的问题。BINEVAL 把 LLM-as-judge 从『给个总分』细化到『逐个原子问题可检视』,呼应的是同一诉求:评测要可诊断、可反哺改进,而不只是一个分数。这条和早报近期密集的 agent 评测论文(PlanBench-XL、EnterpriseClawBench 等)是一体的——当 agent 走向生产,『怎么严肃地评测和安全地运行它』本身就成了刚需赛道。

X / Twitter 讨论

推特上在讨论什么

精选 10 条从业者发言,点"原帖"看一手出处

ChatGPTapp @ChatGPTapp 6493 likes

OpenAI 官方放出新一代前沿模型 GPT-5.6 的限量预览,一次推三档:GPT-5.6 Sol(下一代旗舰前沿模型)、GPT-5.6 Terra(日常高效场景的均衡档)、GPT-5.6 Luna(面向高并发的快速廉价档)。配文"New models are on the horizon",社区测试集中在前端设计、仿真、游戏与建模能力的显著提升,并普遍拿来对标 Fable。

OpenAI:正式介绍 GPT-5.6 三档模型:Sol(前沿旗舰)、Terra(日常均衡)、Luna(高并发快速廉价)的限量预览。
原帖 ↗
thdxr @thdxr 3348 likes

OpenCode v2:TUI、桌面端和 Web 端的所有实例共享同一个后端,默认全部同步,无论开多少个窗口资源占用都被压到最低。

原帖 ↗
OpenAIDevs @OpenAIDevs 2967 likes

Codex 本周一批体验优化上线:长对话线程滚动更顺滑、浏览会话时阅读位置不再跳动;线程切换的后台开销降低,可加载更深的本地历史而无需一次性全量载入;归档对话更易滚动和删除;Dock 与侧边栏的未读角标保持同步。从 Codex 复制内容粘贴到 Slack 时可完整保留 Markdown 格式(列表/加粗/代码块/链接),大段粘贴不再卡 UI,草稿文本可在线程切换间保留,粘贴的图片预览支持方向键导航。

原帖 ↗
sharbel @sharbel 2096 likes

本周 GitHub 涨星最快的 10 个仓库,主题集中在 agent skill 包与 context 文件正在成为新的开发者 dotfiles:1) OpenMontage(+17.2K)首个开源 agentic 视频制作系统,12 条 pipeline、52 个工具、500+ agent skills;2) skills(+11.1K)来自作者 .claude 目录的工程师 skills;3) codebase-memory-mcp(+7.6K)把代码库索引成持久知识图谱,支持 158 种语言、亚毫秒查询、省 99% token;4) Agent-Reach(+7.2K)给 agent 读/搜 Twitter/Reddit/YouTube/GitHub/B站/小红书,零 API 费;5) daily_stock_analysis(+6.9K)LLM 驱动多市场股票分析;6) Anthropic-Cybersecurity-Skills(+5.1K)817 个安全 skill,映射 MITRE ATT&CK 等 6 套框架;后续还有 design.md、ai-website-cloner-template、voicebox、penpot。

原帖 ↗
thsottiaux @thsottiaux 1949 likes

OpenAI 的 Codex 本周落地一批体验改进:能流畅处理超长对话线程;新增可悬停的导航栏预览/跳转各轮;设置搜索覆盖更多控件,自定义 provider 设置更易找;缩放时不再错位 tooltip/对话框/菜单等;复制到 Slack 保留 Markdown(列表/加粗/代码/链接)、大段文本粘贴不再卡死 UI;以及一个专门的 Pets 面板。

原帖 ↗
omarsar0 @omarsar0 842 likes

推荐一篇关于 LLM-as-judge 的论文 BINEVAL:把每条评估标准拆成若干原子化的是/否问题,对每个输出逐题独立判断,再聚合成校准过的多维分数。好处是整体评分会隐藏推理过程与天花板效应,而 BINEVAL 每个问题级判定都可检视,能精确诊断输出为何低分,且这些判定可直接反哺成有针对性的提示词改进信号。在 SummEval、Topical-Chat、QAGS 上无需训练即可匹敌或超过 UniEval 与 G-Eval,在事实一致性上尤其强。

原帖 ↗
0xLogicrw @0xLogicrw 83 likes

DeepSeek 联合北京大学发布投机采样加速框架 DSpark 技术报告,并开源全栈代码库 DeepSpec,DSpark 已部署于 DeepSeek-V4 线上业务。在输出无损前提下,Flash 版单用户生成速度提升 60%-85%,Pro 版提升 57%-78%,表现超过原 MTP-1 基线。技术上先用 DFlash 并行主干生成隐藏状态,再追加轻量马尔可夫头(查表+一次矩阵乘)串行注入相邻词关联,配合置信度预测头与异步零开销调度避免高并发下吞吐崩塌。DeepSpec 内置支持 Qwen3、Gemma,提供从下载提示词到基准评估的完整 Python 工具链。

danielhanchen:DeepSeek 发布用于 V4 Flash 与 Pro 的 DSpark 投机解码方法,吞吐提升 51% 到 400%,且对 Gemma、Qwen 等模型同样有效;附 GitHub/论文/HF 链接。
原帖 ↗
qinbafrank @qinbafrank 52 likes

深度拆解 SpaceX 收购 Mesh(已获 FTC 快速批准):Mesh 由三位前 SpaceX 工程师 2025 年创立,创始人曾主导 Starlink 星间激光链路设计,核心产品是面向 AI 数据中心的高速光学收发器(用光代替电信号互联)。收购动机:收回核心人才与技术、解决 AI 数据中心互联功耗/速度瓶颈(光互联是下一代方案)、为太空算力(轨道数据中心,最早 2028 部署)铺路。SpaceX 截至 3 月已部署超 2.3 万个星间激光器(约对应万条量级活跃链路),并已把 ISL 技术商业化为 Plaser(Plug and Plaser),2024 年 9 月经 Polaris Dawn 完成在轨验证。引用推文提到 SpaceX 已与 Anthropic、Google 签算力合同。

qinbafrank:SpaceX 以全股票方式收购 Cursor 开发商 Anysphere,Cursor 隐含估值 600 亿美元,预计 2026 Q3 完成;与 Anthropic、Google 的算力租赁合作一年带来近 250 亿美元现金流。
原帖 ↗
realNyarime @realNyarime 46 likes

Anthropic 旗舰模型 Mythos 5 的出口管制部分解禁,仅限三类:(1)Anthropic 自家非美籍研究人员;(2)美国"可信合作伙伴"及其外籍员工;(3)美国政府文职机构与国家实验室。其余所有人仍需申请出口许可证。OpenAI 的 Fable 5 仍被全面禁止——目前被华府出口管制的前沿模型只有 Anthropic 和 OpenAI 两家,其他厂商尚未"够格"。

原帖 ↗
markletree @markletree 29 likes

Coinbase 工程师披露本季度 AI 支出几乎砍半、而 token 用量持续攀升的实现细节:全部请求走自建 LLM 网关(单一端点+格式,跨厂商故障转移、脱敏、日志、成本管控)。三招省钱——(1)更便宜的默认模型:91% 员工根本碰不到用量上限,于是不降配额改默认廉价模型;(2)缓存:在 LibreChat 把命中率从 5% 拉到 60%,靠维持长而稳定的前缀让每次只对新 token 付全价;(3)缓存感知路由:对话缓存热时保持同一模型,TTL 失效后才重新选最优模型。下一步深入 coding harness 调优 subagent 与上下文管理。

brian_armstrong:Coinbase CEO:让 AI 支出在 token 指数增长下保持不变,靠更好默认/路由/缓存而非配额告警。明确在试用把默认模型换成 GLM 5.2、Kimi 2.7 等开源权重模型,实践后支出几乎减半。
原帖 ↗
Previous Editions

往期早报

全部归档 →
周六 17 则

GPT-5.6 三档齐发首由政府审查放行,开源侧 DSpark 与 GLM-5.2 逼近前沿

OpenAI 发布 GPT-5.6 Sol/Terra/Luna 三档模型,Sol 为迄今最强但首次由美国政府审查用户名单后限量放行;同期 Anthropic Mythos 5 恢复向美国可信机构部署,出口管制空档催生亚洲厂商推 Mythos-like 模型。开源侧两记重拳:DeepSeek DSpark 投机解码无损提速 60-85% 并全栈开源,智谱 GLM-5.2(7440 亿参数/MIT)登顶 Code Arena、距 Claude Opus 4.8 不到 1%。三方真实落地数据——OpenAI 内部 Codex token 占比 10 个月升至 99.8%、Anthropic 调查显示三分之一人认为初级岗位高概率被替代、字节 TRAE 90% 代码 AI 生成但人均吞吐仅 1.6 倍——共同指向同一结论:智能体已渗进专业岗位,但工程化交付仍是瓶颈。

周五 17 则

GPT-5.6 三档齐发,前沿 AI 进入"政府审批"时代

OpenAI 预览 GPT-5.6——旗舰 Sol、均衡 Terra、低价 Luna 三档齐发,主攻网络安全与长程推理。但与模型同样抢眼的是治理:美国政府要审查谁能用 GPT-5.6 并要求延期,Anthropic 的 Mythos 5/Fable 5 也在政府指令下暂停又部分恢复,前沿 AI 正被纳入国家安全框架。同日 Anthropic 指控阿里非法蒸馏 Claude 能力,DeepSeek 用 DSpark 把推理再提速 80%,Qwen 开源世界模型宣称超 Opus 4.8——开源与闭源、东方与西方的张力全面浮现。

周四 3 则

Claude Tag 把 AI 嵌进工作流,交互范式开始第三次迁移

这一天,Anthropic 发布 Claude Tag,让 Claude 以团队成员身份加入团队既有的协作工具。一位资深研究者把它称为大模型交互设计的「第三次重构」——从「你要去访问的网站」,到「电脑里的应用」,再到「融入人类活动的持续实体」。同周,另一家头部厂商也在把 AI 往工作流深处推,但路径不同:一家讲「智能体替你做事」,一家讲「它伴你做事」。两条路线的分歧,正在显形。

周三 12 则

Anthropic 指控阿里「非法蒸馏」Claude 闹进参议院,同一天 Qwen 智能体论文登顶 HuggingFace;agent 研究密集轰炸

本期为历史回溯补档(归档日 2026-06-24,北京时间)。实时社媒与算法推荐流无法回溯,且检索期间 WebSearch 接口不稳定,主线事实依据当日 CNBC 同日报道、HuggingFace 策展论文与公开发布交叉整理,所有数字均可溯源至一手页面;凡仅见于单方信件或自建基准的内容,文中已标注 caveat。当天的硬新闻是 Anthropic 致信美国参议院银行委员会,指控与阿里关联的操作者用约 2.5 万个欺诈账户、2880 万次交互「非法提取」(蒸馏)Claude,称这是它「已知最大的一次蒸馏攻击」;戏剧性的是,指控见报同一天,阿里 Qwen 的智能体论文 Qwen-AgentWorld 以 136 票登上 HuggingFace 当日榜首。除这条「IP 与中美 AI 竞争」主线外,当天 HuggingFace 被 agent 研究刷屏:从长程规划评测(PlanBench-XL)、真实职场基准(EnterpriseClawBench)、经验学习(EDV)到开源数据配方(OpenThoughts-Agent),集体把焦点对准『智能体到底行不行、怎么训才行』。

周二 12 则

智能体能力被「极限拷问」:长程规划与真实办公评测同日登场,效率派架构集体发力

本期为历史回溯补档(归档日 2026-06-23,北京时间),实时社媒与算法流无法回溯,主要依据当日 HuggingFace 策展论文与可检索到的公开发布整理;检索期间 WebSearch 接口持续不可用,深度选题以一手 arXiv/HuggingFace 论文为主力支撑,事实可溯源。当天没有头部厂商的重磅模型发布,主线落在「智能体到底行不行」的硬核评测上:PlanBench-XL 用 1665 个工具、平均 25 轮的零售任务把前沿模型的长程规划逼到崩溃,EnterpriseClawBench 则把 852 个真实职场会话变成可复现评测,直接给 Claude Code、Codex 等 harness 打分。与此同时,GQE、R-SWA、Confident Decoding 等一批「省算力不掉点」的架构/解码工作集中出现,透露出当下业界对推理成本与可靠性的共同焦虑。

周一 12 则

Five Eyes 警告前沿 AI「数月内」改写网络攻防,GLM-5.2 续压开源成本,智能体记忆研究扎堆

本期为「AI 早报」历史回溯补档(归档日 2026-06-22,北京时间),实时社媒源无法回溯,内容主要依据当日 HuggingFace 策展论文(一手可溯源材料)与可检索到的公开发布/权威媒体报道整理,带主观判断的部分均已标注置信度。当天最硬的官方事件是 Five Eyes 五国情报与网络安全机构罕见联合发声,警告前沿 AI 将在「数月而非数年」内放大进攻性网络能力;研究侧则呈现明显的「智能体记忆 + 扩散语言模型」聚集,HuggingFace 高赞榜被分层记忆、记忆治理、并行区域感知、长程具身记忆等议题占据。模型与产业线多为聚合媒体单一信源转述(GPT-5.6 预览、Fable 5 出口禁令、Noam Shazeer 转投 OpenAI 等),已逐条降置信处理。