2026年6月28日 · 周日 · 今日 14 条信号

Luna:换了命名体系,Terra 性价比翻倍,但先报备了美国政府

OpenAI 启动 GPT-5.6『有限预览』(6-26 发布,本期为余热),用 Sol(旗舰)/Terra(均衡)/Luna(低价)三档替代旧命名——数字代表『代数』、名字代表可独立迭代的『能力档』。三档定价(每百万 token,输入/输出):Sol $5/$30、Terra $2.50/$15、Luna $1/$6;官方称 Terra 性能对标上代 GPT-5.5 但便宜 2 倍。Sol 在 Terminal-Bench 2.1 自报 SOTA、在 ExploitBench 上以约 1/3 输出 tokens 与 Mythos Preview 竞争(benchmark 多为自报)。最反常的是流程:应美国政府要求先做小范围预览、参与方已报备,广泛开放要『未来数周』;7 月将在 Cerebras 上线 Sol,最高 750 tokens/秒。

阅读深度报告 →

本期信号

其余信号

阅读全文 →

产品上新重要度 4/5 高置信官方源深度报告 →

Anthropic 推 Claude Tag:把 Agent 搬进 Slack,自家产品团队 65% 代码已由它生成

Anthropic 发布 Claude Tag(6-23,本期为延续报道),团队在 Slack 里 @Claude 即可委派任务,Claude 作为常驻成员加入频道、连接工具/数据/代码库,运行于 Opus 4.8,对 Enterprise/Team beta 开放,并替换旧版『Claude in Slack』、给管理员 30 天迁移窗口。四大特性:multiplayer 多人接力、跨频道随时间学习、ambient 主动推送/跟进、异步自主推进数小时至数天。治理被做成一等公民:按频道配工具、记忆隔离身份、组织/频道双层 token 上限、全量操作日志。Anthropic 称这是『Claude Code 的演进』,其产品团队 65% 代码已由内部版生成,用途已扩展到追指标、处理工单、定位 bug——远超 Google(>30%)与微软(20-30%)公开数字。

Why

把 coding agent 从『程序员的 IDE 副驾』抬进『企业协作基础设施』——开发者工具的天花板是程序员人数,协作基础设施的天花板是『在 Slack 里上班的所有人』。

Impact

对开发者:在聊天里 @ 一下就能召唤 Agent、过程可见可接力,但 ambient 推送做不好会让频道变嘈杂;对企业:65% 是强力销售弹药但口径不透明,治理(记忆隔离/双层上限/全量日志)而非能力可能才是真正胜负手。

Numbers

65% Anthropic 产品团队由 Claude Tag 生成的代码占比

Opus 4.8 / 数小时至数天底层模型与异步时长

接下来看：65% 的统计口径(按行/commit/PR)与随时间变化曲线是否披露 / GA 时间表与跨平台扩展;企业 beta 的接力连贯度与 ambient 打扰度反馈

#Anthropic#Claude Tag#Claude Code#Slack

行业动态重要度 4/5 中置信多源混合深度报告 →

开源权重追平闭源前沿:差距稳定在 3-6 个月,企业开始大规模换模型

OpenRouter 6 月 Insights《The Open Weight Models that Matter》给出关键判断:开源权重与闭源前沿的性能差距已稳定在 3-6 个月,过去 18 个月没被拉开——『真实但很窄,并未扩大』。支撑这一判断的是同时跨过『agentic 临界点』的四个开源模型:DeepSeek V4 Flash(约 2840 亿参数 MoE,SWE-bench Verified 79.0%,V4 Pro 80.6% 开源最高;首方定价输入/输出 $0.14/$0.28,输出成本约为 GPT-5.5 的 1/150)、智谱 GLM 5.2(AA 开源权重智能指数 51 列开源第一)、MiniMax M3(原生文/图/视频长上下文对标 Gemini Flash)、英伟达 Nemotron 3 Ultra(550B/55B-active Mamba-2 混合,最强美国本土开源)。需求侧:据转述 Coinbase 把默认模型换成 GLM 5.2/Kimi 后 AI 支出近乎减半(token 用量仍涨)。benchmark 多为厂商自报/聚合,价格口径差异显著。

Why

若『3-6 个月差距』成立,会重写企业模型采购逻辑——前沿性能正在变成一种会快速折旧的资产,闭源靠『我最强』收取的溢价被压缩到很窄的高端区间。

Impact

对企业:把默认模型换成性价比高一个数量级的开源权重、只在吃智能的任务上调用闭源前沿成为理性选择;但合规口径(数据留存/许可/自托管)和『benchmark 是否等于真实任务』是两道必答题。

Numbers

3-6 个月开源与闭源前沿性能差距

79.0% / $0.14·$0.28 DeepSeek V4 Flash SWE-bench / 定价

接下来看：GPT-5.6 三档发布后,3-6 个月差距是收窄、持平还是被重新拉开 / Coinbase『支出减半』能否得到官方/财报印证;更多大型企业是否公开换模型成本曲线

#开源模型#开源权重#DeepSeek V4#GLM 5.2

行业动态重要度 4/5 中置信多源混合深度报告 →

Mythos 5 出口管制传出『部分解禁』,亚洲厂商趁封锁窗口抢推 Mythos-like 模型

据 X 用户 @realNyarime 等转述(待 Anthropic / 美商务部官方确认),被华府以国家安全为由暂停访问的 Anthropic 旗舰模型 Mythos 5,出口管制出现『部分解禁』:仅放开三类对象——Anthropic 自家非美籍研究人员、美国『可信合作伙伴』及其外籍员工、美国政府文职机构与国家实验室;其余仍需申请出口许可证。OpenAI 的 Fable 5 仍被全面禁止——目前被华府前沿模型出口管制点名的只有 Anthropic 和 OpenAI 两家。同时,封锁拖延正被亚洲厂商当成机会窗口:HN 244 分热帖记录中国 360 推 Tulongfeng/Yitianzhen、日本 Sakana AI 发 Fugu 编排模型,Sakana Fugu 还出现开源复现项目 OpenFugu(GitHub 271 分)。事实底座(Anthropic 6-12 官方声明)清晰,但『部分解禁』三类条款来自社区转述,故全文置信度 medium。

Why

管制范式从『一刀切』走向『按身份分层发牌』,把『能不能用上最强模型』从纯商业问题变成身份与信任问题;封锁拖延本身就是给对手的『需求侧补贴』。

Impact

对 Anthropic/OpenAI:被点名是『实力认证』与『合规枷锁』的一体两面;对亚洲厂商:封锁清出的是需求而非能力,窗口可能随美国模型恢复供给而收窄;对开源生态:OpenFugu 证明封锁挡不住能力扩散,但可能招致针对开源权重的新管制讨论。

Numbers

3 类 Mythos 5『部分解禁』放开的对象类别

244 / 271 分 HN 热帖 / OpenFugu 开源复现热度

接下来看：Anthropic 官网 / 美商务部(BIS)是否发布『部分解禁』官方原文或许可指引 / Fable 5 是否跟进解禁;管制名单是否扩容(含 GPT-5.6 三档)

#Anthropic#Mythos 5#OpenAI#Fable 5

研究论文重要度 4/5 中置信多源混合深度报告 →

DeepSeek 联合北大发布投机解码框架 DSpark,开源全栈代码库 DeepSpec

据 X 用户 @0xLogicrw / @danielhanchen 转述(以官方技术报告为准),DeepSeek 联合北京大学发布投机采样加速框架 DSpark 技术报告,并开源全栈代码库 DeepSpec,DSpark 据称已部署于 DeepSeek-V4 线上业务。转述称在输出无损前提下,Flash 版单用户生成提速 60%-85%、Pro 版 57%-78%,超过原 MTP-1 基线;另一口径(@danielhanchen)称吞吐提升 51%-400%——两套数字差异极大,需以官方报告为准。可独立证实:deepseek-ai/DeepSpec 仓库确已开源(MIT,约 1.8k stars),自述为『训练与评估投机解码算法的全栈代码库』,README 列出 DSpark/DFlash/Eagle3 三种草稿模型,支持 Qwen3 与 Gemma,提供完整 Python 工具链。

Why

把厂商内部的线上投机解码方案开源、并附标准基准,降低复现门槛,推动『无损加速』从论文走向工程标配;DeepSpec 的『统一评测台』价值可能被低估——投机解码长期苦于各家用各家基线。

Impact

对国产模型生态:降低投机解码复现门槛;对 DeepSeek:延续『压低推理成本 + 开源放大影响力』打法。但提速数字两源打架(57%-85% vs 51%-400%),整体置信度 medium、提速相关 claim 标 low。

Numbers

≈1.8k DSpec 仓库 stars(可证实)

57%-85% / 51%-400% 提速(X 转述,口径不一)

接下来看：DeepSeek 是否发布 DSpark 技术报告正文,披露 Flash/Pro 版精确口径与对照 baseline / @0xLogicrw 的 57%-85% 与 @danielhanchen 的 51%-400% 哪个接近官方口径

#DeepSeek#DSpark#DeepSpec#投机解码

产品上新重要度 2/5 高置信官方源

OpenAI Codex 本周体验更新:长线程滚动更顺、复制到 Slack 保留 Markdown

据 @OpenAIDevs / @thsottiaux,Codex 本周落地一批体验改进:超长对话线程滚动更顺滑、浏览时阅读位置不再跳动;线程切换后台开销降低、可加载更深本地历史;从 Codex 复制内容粘贴到 Slack 时完整保留 Markdown(列表/加粗/代码块/链接)、大段粘贴不再卡 UI;新增可悬停的导航栏轮次预览、设置搜索覆盖更多控件,以及一个 Pets 面板。@thsottiaux 推文 1949 赞、@OpenAIDevs 2967 赞。

Why

佐证 Slack 工作流入口正成为 coding agent 的兵家必争之地,且竞争从能力转向体验细节。

Impact

对 Codex 用户:长线程与跨工具(Slack)协作体验改善;对竞品:体验打磨成为能力收敛后的新差异化维度。

早报判断

这批更新看着琐碎,但方向值得注意:OpenAI 在抢 Slack 这个工作流入口——『复制到 Slack 保留 Markdown』和同周 Anthropic Claude Tag 进 Slack 是同一战场的两种打法,一个把 Agent 直接驻进频道,一个优化『从 IDE 到 Slack』的内容流转。当各家旗舰能力差距收敛,产品体验(长线程不卡、粘贴不丢格式)这种『最后一公里』的打磨会越来越成为留住开发者的护城河。Pets 面板这种小彩蛋也透露出 Codex 在往『日常陪伴型工具』而非纯命令行工具演化。

#OpenAI #Codex #Slack #开发者工具

OpenAIDevs 官方推文:Codex 本周体验更新↗ thsottiaux 推文:Codex 更新明细↗

产品上新重要度 2/5 中置信发展中

OpenCode v2 发布:TUI / 桌面 / Web 多端共享同一后端,默认全部同步

据作者 @thdxr(推文 3348 赞),OpenCode v2 让 TUI、桌面端和 Web 端的所有实例共享同一个后端,默认全部同步——无论开多少个窗口,资源占用都被压到最低。

Why

反映开源 coding agent 在架构上向『多端共享后端、状态默认同步』收敛,降低多设备协作摩擦。

Impact

对 OpenCode 用户:多窗口/多设备资源占用下降、状态一致;对生态:『共享后端』可能成为下一代 agent 工具的默认架构。

早报判断

这是 coding agent 工具走向『多端一致』的一个务实信号:开发者越来越常在终端、桌面 App 和浏览器之间来回切,各端各跑一份后端既费资源又导致状态不一致。OpenCode v2 把后端单一化、状态默认同步,等于把『一个 agent session』从某个具体窗口里解放出来,成为可以多处接入的共享资源——这和 Claude Tag『一个频道一个共享 Claude、任何人可接力』在理念上同源,都是把 agent 从『单点工具』变成『可共享的常驻服务』。对独立开发者和小团队,这种架构能显著降低多设备协作的摩擦。

#OpenCode #coding agent #开源工具 #开发者工具

thdxr 推文:OpenCode v2 多端共享后端↗

行业动态重要度 3/5 低置信发展中

SpaceX 收购光互联公司 Mesh:为 AI 数据中心与轨道算力铺路

据 @qinbafrank 深度拆解,SpaceX 收购光互联公司 Mesh(已获 FTC 快速批准)。Mesh 由三位前 SpaceX 工程师 2025 年创立,创始人曾主导 Starlink 星间激光链路设计,核心产品是面向 AI 数据中心的高速光学收发器(用光代替电信号互联)。收购动机:收回核心人才与技术、解决 AI 数据中心互联的功耗/速度瓶颈(光互联被视为下一代方案)、为太空算力(轨道数据中心,最早 2028 部署)铺路。SpaceX 截至 3 月已部署超 2.3 万个星间激光器,引用推文还提到 SpaceX 已与 Anthropic、Google 签算力合同。

Why

AI 算力竞赛正向最底层的物理互联(光互联)延伸,SpaceX 凭星间激光技术切入 AI 数据中心互联是一条难以复制的垂直整合路径。

Impact

对 AI 基础设施:光互联可能成为突破数据中心功耗/带宽墙的关键;对格局:SpaceX 从发射服务商向 AI 基础设施玩家延伸,且已绑定 Anthropic/Google 算力合同。

早报判断

这条把『AI 算力竞赛』的战线从模型和芯片往下拉到了最底层的物理互联。当数据中心规模逼近功耗与带宽墙,GPU 之间、机柜之间的互联效率成了新瓶颈,光互联(硅光/光学收发器)正是被押注的下一代方案。SpaceX 收购 Mesh 的真正野心藏在『轨道数据中心』那句里——把星间激光链路的现成技术(已部署 2.3 万个激光器)迁移到地面 AI 数据中心互联,再反向铺向太空算力,是一条别人很难复制的垂直整合路径。叠加它已与 Anthropic、Google 签算力合同,SpaceX 正在从『发射服务商』悄悄变成『AI 基础设施玩家』。需要提醒:这条主要基于单一分析推文,轨道数据中心 2028 部署等是远期愿景而非既成事实。

#SpaceX #光互联 #AI 数据中心 #算力

qinbafrank 推文:SpaceX 收购 Mesh 深度拆解↗

行业动态重要度 3/5 中置信发展中

Coinbase 工程拆解:AI 支出砍半靠自建 LLM 网关 + 换默认模型 + 缓存路由

据 @markletree 转述 Coinbase 工程实现细节:本季度 AI 支出几乎砍半、token 用量持续攀升,全部请求走自建 LLM 网关(单一端点 + 格式,跨厂商故障转移、脱敏、日志、成本管控)。三招省钱:(1)更便宜的默认模型——91% 员工根本碰不到用量上限,于是不降配额、改默认廉价模型(据 CEO Brian Armstrong 称在试用 GLM 5.2、Kimi 2.7 等开源权重);(2)缓存——在 LibreChat 把命中率从 5% 拉到 60%;(3)缓存感知路由——对话缓存热时保持同一模型,TTL 失效后才重新选最优模型。

Why

为『企业大规模换开源模型省钱』提供了少见的工程级细节,且揭示成本杠杆在架构(网关/缓存/路由)而不只在模型单价。

Impact

对企业 LLMOps:给出可复制的省钱组合拳(自建网关 + 高缓存命中 + 缓存感知路由);印证『低价激发用量』而非单纯削减预算。

早报判断

这是『开源追平』那条主线最硬的需求侧证据——而且它比『换个便宜模型』复杂得多。Coinbase 的关键洞察是:省钱的杠杆不只在模型单价,更在工程架构(网关 + 缓存命中率 + 缓存感知路由)。把缓存命中率从 5% 拉到 60% 这一招,价值可能不亚于换模型本身,因为它直接决定了每次请求要为多少 token 付全价。这条也给所有想复制 Coinbase 路线的企业提了个醒:换开源默认模型是入场券,真正把成本压下来的是围绕它的整套 LLMOps 工程。同时『支出砍半但 token 用量仍涨』再次验证:低价不是用来省钱的,是用来买更多 agentic 调用的——这正是开源把 frontier 能力打到白菜价后,需求被进一步激发的样子。

#Coinbase #LLM 网关 #推理成本 #开源模型

markletree 推文:Coinbase LLM 网关省钱三招↗ OpenRouter Insights(开源换模型省钱大背景)↗

行业动态重要度 3/5 中置信发展中

GitHub 涨星榜:agent skill 包与 context 文件正成为新的开发者 dotfiles

据 @sharbel 整理,本周 GitHub 涨星最快的 10 个仓库主题集中在『agent skill 包与 context 文件正成为新的开发者 dotfiles』:OpenMontage(+17.2K,首个开源 agentic 视频制作系统,12 条 pipeline/52 工具/500+ agent skills)、skills(+11.1K,来自作者 .claude 目录的工程师 skills)、codebase-memory-mcp(+7.6K,把代码库索引成持久知识图谱,158 种语言、亚毫秒查询、省 99% token)、Agent-Reach(+7.2K,给 agent 读/搜 Twitter/Reddit/YouTube/B站等)、Anthropic-Cybersecurity-Skills(+5.1K,817 个安全 skill 映射 MITRE ATT&CK 等 6 套框架)。另据 @zrebroia,一个让 Claude『像最懒资深工程师那样编码』的 skill 一周冲到 5.8 万星、2.9k fork,宣称代码量少 54%、便宜 20%、快 27%。

Why

揭示用 agent 的核心竞争力正从『选模型』转向『配 skill 与上下文』,skill 生态成为 agent 工具新的差异化战场。

Impact

对开发者:可移植、可分享的 agent skill 包正成为新的生产力资产;对工具厂商:skill/context 生态的丰富度成为留住用户的关键。

早报判断

『agent skill 正成为新 dotfiles』这个判断很到位:过去开发者攒的是 .vimrc、.zshrc 这类个人配置,现在攒的是 .claude 目录里的 skill 和 context 文件——可移植、可分享、可版本控制的『agent 能力包』。这背后是一个范式转移:用 agent 的核心竞争力,正从『选哪个模型』转向『给它配哪套 skill 和上下文』。codebase-memory-mcp『省 99% token』和那个『少 54% 代码』的 skill 之所以能爆火,恰恰因为它们直击了 agentic 编码最痛的成本与上下文管理问题。需要注意的是,star 数是热度而非质量背书,『少 54% 代码、便宜 20%』这类宣称缺乏第三方验证,但趋势本身——skill 生态正在成为 agent 工具的差异化战场——是扎实的。

#GitHub #agent skills #开发者工具 #context 工程

sharbel 推文:本周 GitHub 涨星榜与 agent skills 趋势↗ zrebroia 推文:Claude 编码 skill 一周冲到 5.8 万星↗

2026 · 六月

7 期

日

一

二

三

四

五

六

22 23 24 25 26 27 28

Signal Mix

头条 1

产品上新 3

行业动态 6

研究论文 4

从业者在聊

ChatGPTapp @ChatGPTapp

OpenAI 官方放出新一代前沿模型 GPT-5.6 的限量预览,一次推三档:GPT-5.6 Sol(下一代旗舰前沿模型)、GPT-5.6 Terra(日常高效场景的均衡档)、GPT-5.6 Luna(面向高并发的快速廉价档)。配文"New models are on the horizon",社区测试集中在前端设计、仿真、游戏与建模能力的显著提升,并普遍拿来对标 Fable。

thdxr @thdxr

OpenCode v2:TUI、桌面端和 Web 端的所有实例共享同一个后端,默认全部同步,无论开多少个窗口资源占用都被压到最低。

OpenAIDevs @OpenAIDevs

Codex 本周一批体验优化上线:长对话线程滚动更顺滑、浏览会话时阅读位置不再跳动;线程切换的后台开销降低,可加载更深的本地历史而无需一次性全量载入;归档对话更易滚动和删除;Dock 与侧边栏的未读角标保持同步。从 Codex 复制内容粘贴到 Slack 时可完整保留 Markdown 格式(列表/加粗/代码块/链接),大段粘贴不再卡 UI,草稿文本可在线程切换间保留,粘贴的图片预览支持方向键导航。

sharbel @sharbel

本周 GitHub 涨星最快的 10 个仓库,主题集中在 agent skill 包与 context 文件正在成为新的开发者 dotfiles:1) OpenMontage(+17.2K)首个开源 agentic 视频制作系统,12 条 pipeline、52 个工具、500+ agent skills;2) skills(+11.1K)来自作者 .claude 目录的工程师 skills;3) codebase-memory-mcp(+7.6K)把代码库索引成持久知识图谱,支持 158 种语言、亚毫秒查询、省 99% token;4) Agent-Reach(+7.2K)给 agent 读/搜 Twitter/Reddit/YouTube/GitHub/B站/小红书,零 API 费;5) daily_stock_analysis(+6.9K)LLM 驱动多市场股票分析;6) Anthropic-Cybersecurity-Skills(+5.1K)817 个安全 skill,映射 MITRE ATT&CK 等 6 套框架;后续还有 design.md、ai-website-cloner-template、voicebox、penpot。

看全部 →

Previous Editions

往期

全部归档 →

2026-06-27 周六 17 则

GPT-5.6 三档齐发首由政府审查放行,开源侧 DSpark 与 GLM-5.2 逼近前沿

OpenAI 发布 GPT-5.6 Sol/Terra/Luna 三档模型,Sol 为迄今最强但首次由美国政府审查用户名单后限量放行;同期 Anthropic Mythos 5 恢复向美国可信机构部署,出口管制空档催生亚洲厂商推 Mythos-like 模型。开源侧两记重拳:DeepSeek DSpark 投机解码无损提速 60-85% 并全栈开源,智谱 GLM-5.2(7440 亿参数/MIT)登顶 Code Arena、距 Claude Opus 4.8 不到 1%。三方真实落地数据——OpenAI 内部 Codex token 占比 10 个月升至 99.8%、Anthropic 调查显示三分之一人认为初级岗位高概率被替代、字节 TRAE 90% 代码 AI 生成但人均吞吐仅 1.6 倍——共同指向同一结论:智能体已渗进专业岗位,但工程化交付仍是瓶颈。

2026-06-26 周五 17 则

GPT-5.6 三档齐发,前沿 AI 进入"政府审批"时代

OpenAI 预览 GPT-5.6——旗舰 Sol、均衡 Terra、低价 Luna 三档齐发,主攻网络安全与长程推理。但与模型同样抢眼的是治理:美国政府要审查谁能用 GPT-5.6 并要求延期,Anthropic 的 Mythos 5/Fable 5 也在政府指令下暂停又部分恢复,前沿 AI 正被纳入国家安全框架。同日 Anthropic 指控阿里非法蒸馏 Claude 能力,DeepSeek 用 DSpark 把推理再提速 80%,Qwen 开源世界模型宣称超 Opus 4.8——开源与闭源、东方与西方的张力全面浮现。

2026-06-25 周四 3 则

Claude Tag 把 AI 嵌进工作流,交互范式开始第三次迁移

这一天,Anthropic 发布 Claude Tag,让 Claude 以团队成员身份加入团队既有的协作工具。一位资深研究者把它称为大模型交互设计的「第三次重构」——从「你要去访问的网站」,到「电脑里的应用」,再到「融入人类活动的持续实体」。同周,另一家头部厂商也在把 AI 往工作流深处推,但路径不同:一家讲「智能体替你做事」,一家讲「它伴你做事」。两条路线的分歧,正在显形。

2026-06-24 周三 12 则

Anthropic 指控阿里「非法蒸馏」Claude 闹进参议院,同一天 Qwen 智能体论文登顶 HuggingFace;agent 研究密集轰炸

本期为历史回溯补档(归档日 2026-06-24,北京时间)。实时社媒与算法推荐流无法回溯,且检索期间 WebSearch 接口不稳定,主线事实依据当日 CNBC 同日报道、HuggingFace 策展论文与公开发布交叉整理,所有数字均可溯源至一手页面;凡仅见于单方信件或自建基准的内容,文中已标注 caveat。当天的硬新闻是 Anthropic 致信美国参议院银行委员会,指控与阿里关联的操作者用约 2.5 万个欺诈账户、2880 万次交互「非法提取」(蒸馏)Claude,称这是它「已知最大的一次蒸馏攻击」;戏剧性的是,指控见报同一天,阿里 Qwen 的智能体论文 Qwen-AgentWorld 以 136 票登上 HuggingFace 当日榜首。除这条「IP 与中美 AI 竞争」主线外,当天 HuggingFace 被 agent 研究刷屏:从长程规划评测(PlanBench-XL)、真实职场基准(EnterpriseClawBench)、经验学习(EDV)到开源数据配方(OpenThoughts-Agent),集体把焦点对准『智能体到底行不行、怎么训才行』。

2026-06-23 周二 12 则

智能体能力被「极限拷问」:长程规划与真实办公评测同日登场,效率派架构集体发力

本期为历史回溯补档(归档日 2026-06-23,北京时间),实时社媒与算法流无法回溯,主要依据当日 HuggingFace 策展论文与可检索到的公开发布整理;检索期间 WebSearch 接口持续不可用,深度选题以一手 arXiv/HuggingFace 论文为主力支撑,事实可溯源。当天没有头部厂商的重磅模型发布,主线落在「智能体到底行不行」的硬核评测上:PlanBench-XL 用 1665 个工具、平均 25 轮的零售任务把前沿模型的长程规划逼到崩溃,EnterpriseClawBench 则把 852 个真实职场会话变成可复现评测,直接给 Claude Code、Codex 等 harness 打分。与此同时,GQE、R-SWA、Confident Decoding 等一批「省算力不掉点」的架构/解码工作集中出现,透露出当下业界对推理成本与可靠性的共同焦虑。

2026-06-22 周一 12 则

Five Eyes 警告前沿 AI「数月内」改写网络攻防,GLM-5.2 续压开源成本,智能体记忆研究扎堆

本期为「AI 早报」历史回溯补档(归档日 2026-06-22,北京时间),实时社媒源无法回溯,内容主要依据当日 HuggingFace 策展论文(一手可溯源材料)与可检索到的公开发布/权威媒体报道整理,带主观判断的部分均已标注置信度。当天最硬的官方事件是 Five Eyes 五国情报与网络安全机构罕见联合发声,警告前沿 AI 将在「数月而非数年」内放大进攻性网络能力;研究侧则呈现明显的「智能体记忆 + 扩散语言模型」聚集,HuggingFace 高赞榜被分层记忆、记忆治理、并行区域感知、长程具身记忆等议题占据。模型与产业线多为聚合媒体单一信源转述(GPT-5.6 预览、Fable 5 出口禁令、Noam Shazeer 转投 OpenAI 等),已逐条降置信处理。