2026年6月27日 · 周六

GPT-5.6 三档齐发首由政府审查放行,开源侧 DSpark 与 GLM-5.2 逼近前沿

OpenAI 发布 GPT-5.6 Sol/Terra/Luna 三档模型,Sol 为迄今最强但首次由美国政府审查用户名单后限量放行;同期 Anthropic Mythos 5 恢复向美国可信机构部署,出口管制空档催生亚洲厂商推 Mythos-like 模型。开源侧两记重拳:DeepSeek DSpark 投机解码无损提速 60-85% 并全栈开源,智谱 GLM-5.2(7440 亿参数/MIT)登顶 Code Arena、距 Claude Opus 4.8 不到 1%。三方真实落地数据——OpenAI 内部 Codex token 占比 10 个月升至 99.8%、Anthropic 调查显示三分之一人认为初级岗位高概率被替代、字节 TRAE 90% 代码 AI 生成但人均吞吐仅 1.6 倍——共同指向同一结论:智能体已渗进专业岗位,但工程化交付仍是瓶颈。

17 则新闻 5 篇深度调研

今日要点

GPT-5.6 三档定价:Sol $5/$30、Terra $2.50/$15、Luna $1/$6(OpenAI 史上最低),7 月 Cerebras 上最高 750 tokens/秒
美国政府首次审查前沿模型用户名单:GPT-5.6 限量预览 + Mythos 5 恢复向可信机构部署,亚洲厂商借出口管制空档推 Mythos-like
DeepSeek DSpark 投机解码无损提速 60-85%,DeepSpec 全栈开源,已部署 V4 线上
智谱 GLM-5.2 开源(7440 亿参数/1M 上下文/MIT)登顶 Code Arena,距 Claude Opus 4.8 不到 1%、API 便宜 85%
OpenAI 内部 Codex token 占比 10 个月从 10% 升至 99.8%,非开发者用量 +189 倍,法务/财务/招聘跨过半数拐点
Agent Arena Token 效率:Fable 质量最高(+14.1%),GPT-5.5 最省,Grok 烧 20K+ token 反而净负增长

总览

头条 1

头条深度 →

OpenAI 发布 GPT-5.6 三档模型:Sol/Terra/Luna,首由美国政府审查放行

OpenAI 发布 GPT-5.6 系列,旗舰 Sol 为迄今最强模型,新增 max reasoning 最大推理档与调用子智能体的 ultra mode;均衡型 Terra 性能持平 GPT-5.5 但便宜 2 倍,快速型 Luna 为 OpenAI 史上最低价($1/$6 每百万 token)。应美国政府要求先向受信任合作伙伴限量预览、再逐步扩大,OpenAI 称不希望此流程长期化。Sol 在 Terminal-Bench 2.1、GeneBench v1、ExploitBench² 等 SOTA,网络安全为迄今最强但未越过 Preparedness Framework 关键阈值;新命名体系以数字代表代际、Sol/Terra/Luna 为可独立演进的档位。7 月将在 Cerebras 上以最高 750 tokens/秒推出 Sol。

#OpenAI#GPT-5.6#前沿模型#政策

模型发布 2

模型发布深度 →

智谱 GLM-5.2 开源登顶 Code Arena,距 Claude Opus 4.8 不到 1%

智谱 AI 开源 GLM-5.2(Max),7440 亿参数、100 万 token 上下文、MIT 协议,在 Code Arena 前端赛道排第 2、仅次 Fable 5,击败全部 Claude Opus 变体(含 4.8/4.7 Thinking),距 Claude Opus 4.8 不到 1%、软件工程基准击败 GPT-5.5,API 比同等性能美国模型便宜 85%。All In 节目估计中国模型技术落后约 9 个月、芯片落后约 24 个月,但已用华为昇腾完成 GLM5 家族训练。

#智谱#GLM#开源模型#Code Arena

模型发布

阿里 Wan2.7-Video 进 Video Arena 图生视频第 5

阿里 Wan2.7-Video I2V 以 1434 分进入 Video Arena 图生视频榜第 5,头对头领先 Grok Imagine Video 及全部 Google Veo-3.1 变体;支持文本/图像/音频/视频多模态控制与角色定制。

点评

视频生成是中国实验室少数能稳定跻身前沿榜的赛道,Wan 与 Kling、海螺同列印证了"国产在多模态上追平更快"的判断,与 GLM-5.2 登顶代码榜同源——闭源前沿的护城河在多模态侧塌得更快。比名次更值得关注的是多模态控制(文/图/音/视频 + 角色定制):可控性而非裸画质才是商用(广告、内容生产)的解锁条件。对采购方意味着视频生成的竞争正从"谁先做出来"转向"谁能稳定交付可定制的成片"。

#视频生成 #阿里 #Wan

arena:Wan-2.7 I2V 进入 Video Arena 第 5↗ Alibaba Wan:Wan2.7-Video 介绍↗

产品上新 3

产品上新

workweave/router:在 Claude/Codex/Cursor 内做智能模型路由

Show HN 项目 workweave/router 直接在 Claude、Codex、Cursor 内做智能模型路由,按任务把请求分发给最合适的模型。HN 热度 201。

点评

模型路由层正从"API 网关功能"下沉到编码 agent 内部,意味着开发者不再为单一模型锁死、可按任务难度动态选型以平衡成本与质量。这与 Agent Arena 的 token 效率结论、OpenRouter 的 open-weight 流水线同属"按需选模"主线——模型间的智能调度本身正在成为一个独立产品赛道。

#模型路由 #编码 agent #开源工具

GitHub:workweave/router↗

产品上新

OpenKnowledge:开源 AI-first 笔记,对标 Obsidian/Notion

Show HN 项目 OpenKnowledge(inkeep 出品)定位为开源、AI 优先的 Obsidian/Notion 替代品。HN 热度 372。

点评

笔记软件正经历 AI-first 重做潮,但决定胜负的不是"能不能对话",而是检索与生成是否长进数据结构本身——inkeep 以搜索见长切入正说明这一点,纯加一层 chat 的产品很快会被淘汰。开源则是数据主权筹码,在个人知识管理这个对隐私敏感的场景里有结构性优势。短期看,这类产品最大的对手其实不是 Obsidian/Notion,而是用户迁移成本:笔记库的沉淀惯性远比工具切换难打破。

#笔记 #开源 #AI-first

GitHub:inkeep/open-knowledge↗

产品上新

Google Finance 上线:自然语言问投资组合

Google Finance 正式上线,可用自然语言提问让 AI 分析投资组合,并设置定时任务每天发送金融简报。

点评

Google 把 LLM 推进金融这一高监管、高 stakes 的垂类,既是对模型可靠性的信心投票,也是对责任边界的实测——自然语言分析投资组合稍有不慎就越过"投资建议"红线,法律定位将决定它能走多远。定时简报把 agent 的持久性带入消费金融,但 Big Tech 的分发优势才是真正护城河:同能力下谁先占据入口谁就赢。对独立金融 AI 创业公司,这意味着必须避开通用问答、押注个性化与深度集成才有活路。

#Google #金融 AI #产品

Gorden_Sun 推文:Google Finance 上线↗

研究论文 3

研究论文深度 →

DeepSeek DSpark 投机解码无损提速 60-85%,DeepSpec 全栈开源

DeepSeek 联合北大发布投机采样加速框架 DSpark 并开源全栈代码库 DeepSpec,已部署于 DeepSeek-V4 线上业务。无损前提下 Flash 版单用户生成提速 60-85%、Pro 版 57-78%,超越原 MTP-1 基线;DSpark 用 DFlash 并行主干网生成隐藏状态+轻量马尔可夫头注入相邻词关联,置信度预测头与后验校准避免高并发下吞吐崩溃。DeepSpec 内置支持 Qwen3、Gemma 等,提供从训练草稿模型到基准评估的完整 Python 工具链。HN 热度 714、293 评论。

#DeepSeek#推理加速#投机解码#开源

研究论文

MoA 混合代理:NousResearch 称超闭源,论文发现'共败上限'

NousResearch 将 Hermes Agent 的 MoA(混合代理)预设作为虚拟模型开放,自称在即将发布的基准上比 Opus 4.8 高 8%、比 GPT-5.5 高 11%;同期 arXiv 论文《When Does Combining Language Models Help?》跨 67 个前沿模型发现路由/投票/MoA 存在"共败上限",组合收益受限于成员模型共同失败的模式。

点评

两条消息正好构成一组张力:NousResearch 证明开源靠"组合"能逼近甚至超过单点闭源,但论文警告组合的天花板由成员模型的共同盲区决定——越同质的模型群组合收益越小。对实践者的含义是:MoA 是开源追平闭源的可行杠杆,但别指望它无上限地补齐短板,成员多样性比数量更关键。

#MoA #开源 #评测 #模型组合

NousResearch:Hermes Agent MoA 虚拟模型↗ arXiv:Combining Language Models 的共败上限↗

研究论文

BINEVAL:把 LLM-as-judge 拆成原子级是非题,可定位低分原因

BINEVAL 提出将评估维度拆成原子级是非题、对每个输出独立作答再聚合为校准的多维分数,每个问题级判定可检查、能精确定位输出为何低分并作为改进 prompt 的信号;在 SummEval、Topical-Chat、QAGS 上匹配或超过 UniEval 和 G-Eval,免训练、事实一致性表现尤佳。

点评

整体打分会掩盖推理过程和天花板效应,这是 LLM-as-judge 被诟病的主因;BINEVAL 的"原子是非题+可追溯"把不可解释的总分变成可调试的信号,直接对接 prompt 迭代。对把 judge 接进评估流水线的团队,这是比换更大裁判模型更划算的工程改进方向。

#评测 #LLM-as-judge #研究

omarsar0 推文:BINEVAL 解读↗

开发者 fernandoi 公开记述让 2000 人尝试攻击其 AI 助手后的攻防实录,揭示 prompt 注入、越狱与权限滥用的真实长尾。HN 热度 369。

点评

公开众包红队是了解 agent 安全短板最廉价的方式,这篇实录的价值在于把"实验室攻防"还原成真实用户会怎么钻空子——多数失败不在模型本身,而在工具权限边界与上下文隔离设计。对自建 agent 的团队是现成的威胁模型清单:先把工具调用权限和会话隔离做硬,再谈能力扩展。

#安全 #红队 #prompt 注入

fernandoi.cl:2000 人攻击我的 AI 助手后↗

观点观察 2

观点观察深度 →

智能体渗透工作:OpenAI Codex 99.8% + Anthropic 经济影响 + 字节 TRAE 三方数据

OpenAI 内部报告,2025 年 8 月至 2026 年 6 月各部门输出 token 中 Codex 占比从不足 10% 升至 99.8%,80.6% 员工曾发起等效人类超 30 分钟的请求、25.6% 超 8 小时,非开发者用量个体 +137 倍/组织 +189 倍,法务、财务、招聘 4 月前后跨过使用过半拐点。Anthropic 经济影响研究(逐小时采样)显示近半受访者预期 12 个月内职责显著变化,不到 10% 认为自己会失业、但超三分之一估计初级同事失业概率高于 60%。字节洪定坤分享 TRAE 团队过去半年超 90% 代码由 AI 生成,但人均需求吞吐仅提升约 1.6 倍——引入 Harness(上下文工程/架构约束/团队知识沉淀)后可交付性从 40-60 分升至约 80 分。

#智能体#Codex#就业影响#上下文工程

观点观察

Agent Arena Token 效率:Fable 质量最高,GPT-5.5 最省,Grok 烧 token 倒退

Code Arena 母榜发布 Agent Arena Token 效率分析(模型在搜索/文件系统/终端工具下完成真实任务),Fable 质量最高(+14.1%),优于同 token 用量的 Opus 4.8 Thinking(+9.2%);三个 GPT-5.5 变体均在效率前沿之上(+6.2% 至 +8.6%)且用量更少;GLM-5.2 达 +5.1% 接近趋势线。Gemini-3.5 Flash 耗 token 最多却远低于前沿,Grok Build 0.1 烧 20K+ token 反而净负增长。

点评

'Token≠收益'是这组数据最该被记住的结论:烧 token 的模型未必更强,甚至可能越用越差。对 agent 选型而言,每美元有效产出正在取代裸能力分成为更现实的采购指标——这对主打低价高吞吐的开源模型是机会,也给'堆参数堆 token'的旧范式敲了警钟。

#评测 #Token 效率 #智能体

arena:Agent Arena Token 效率分析↗

X Feed 流

来自关注列表的从业者讨论 · 算法推荐

Xudong07452910 @Xudong07452910 31

OpenAI 发布内部报告，记录 Codex 过去 10 个月如何改变员工工作方式。2025年8月到2026年6月，各部门输出 token 中 Codex 占比从不足10%升至99.8%；80.6%员工曾发起等效人类工作超30分钟的请求，70.2%超1小时，25.6%超8小时。非开发者用户增长更猛：个体+137倍、组织+189倍，Legal/Finance/Recruiting在今年4月前后跨过使用过半拐点，律师和招聘人员超85%输出token来自Codex。结论：Agentic AI已渗透进律师、财务、HR等过去认为不会被替代的专业岗位。

原帖 ↗

Xudong07452910 @Xudong07452910 22

字节技术副总裁洪定坤分享AI Coding：TRAE团队过去半年超90%代码由AI生成，但人均需求吞吐率只提升60%（约1.6倍）——写代码只是软件工程一部分，真实交付还含需求理解、架构约束、review、测试、安全、性能、兼容性。他做了实验：3个主流Coding模型×3个主流Agent框架共9种组合各跑100次，功能正确率多超80%，但看UI/交互/可靠性/性能/兼容性/可维护性等'能不能交付'指标只有40–60分；引入Harness（上下文工程、架构约束、团队知识沉淀、代码规范、测试要求）后可交付性提升到约80分。判断：AI Coding竞争点正从模型能力转向谁能给AI搭更可靠的工程环境，代码变便宜但判断什么代码能进系统会变更贵。

原帖 ↗

0xLogicrw @0xLogicrw 25

DeepSeek联合北大发布投机采样加速框架DSpark技术报告并开源全栈代码库DeepSpec，已部署于DeepSeek-V4线上业务。无损前提下，Flash版单用户生成速度提升60%–85%，Pro版提升57%–78%，超越原有单Token多分支预测（MTP-1）基线。DSpark用DFlash并行主干网生成隐藏状态+轻量马尔可夫头串行注入相邻词关联，集成置信度预测头与后验校准，调度器异步用两步前历史预测决定裁剪长度，避免高并发下验证尾部错字导致吞吐崩溃。DeepSpec内置支持Qwen3、Gemma等，提供从下载提示词、重建缓存、训练草稿模型到基准评估的完整Python工具链。

@danielhanchen： DeepSeek发布面向V4 Flash与Pro的DSpark，新投机解码方法把吞吐提升51%–400%，并展示对Gemma、Qwen等其他模型同样有效，附GitHub/Paper/HuggingFace链接。

原帖 ↗

ArtofSpecuycky @ArtofSpecuycky 70

All In Podcast最新一期信息密度高。中国开源模型：智谱AI发布Frontier级开源模型GLM 5.2，7440亿参数、100万token上下文、MIT协议，软件工程编程基准击败GPT-5.5，距Claude Opus 4.8不到1%，API价格比同等性能美国模型便宜85%；Sacks估计中国模型技术上落后约9个月、芯片落后约24个月，但已用华为昇腾完成GLM5家族训练。节目提到中国团队用成千上万台手机/iPad设备农场向美国Frontier模型API高密度提问、收割推理链路喂给自家开源模型做强化训练。DRAM卡脖子：美光营收同比从90亿飙到420亿、2026年HBM产能售罄，预测明年全球超大规模资本开支30%–40%直接流向DRAM厂商。分布式推理设想：特斯拉6月18日申请'Megapod'商标，把GPU+电池+液冷塞进集装箱式数据中心空降超充站；更激进设想是Powerwall内置AI芯片+Starlink组成分布式P2P推理池，以及星舰可重复使用后把1吉瓦算力激光互联送入太空轨道，成本或从600亿美元降到50亿。

原帖 ↗

OpenRouter @OpenRouter 446

OpenRouter Insights新博文：已有四款open-weight模型跨过门槛，正在驱动真实的agentic流水线，分析了6月企业为何选择它们。

原帖 ↗

sharbel @sharbel 1214

本周GitHub增长最快的10个仓库：1) OpenMontage +17.2K，首个开源agentic视频生产系统（12条流水线、52个工具、500+ agent技能，把AI coding助手变成视频制作工作室）；2) skills +11.1K（Real Engineers的.claude skills）；3) codebase-memory-mcp +7.6K（高性能代码智能MCP，把代码库索引成持久知识图，158种语言、亚毫秒查询、token省99%）；4) Agent-Reach +7.2K（给agent装眼睛读Twitter/Reddit/YouTube/GitHub/B站/小红书）；5) daily_stock_analysis +6.9K；6) Anthropic-Cybersecurity-Skills +5.1K（817个结构化网络安全技能，映射MITRE ATT&CK等6框架）；7) design.md +4.6K；8) ai-website-cloner-template +3.9K；9) voicebox +3.8K（开源AI语音工作室）；10) penpot +3.6K。本周主题：agent技能包和context文件正在成为新的开发者dotfiles。

原帖 ↗

berryxia @berryxia 222

开源工具Memanto给AI coding agent装上'无限记忆'：保存每次完整工作会话，用AI自动组织压缩，下次按需在90ms内找回相关上下文，支持Claude Code、Cursor、Codex、LangGraph、CrewAI。不用传统向量数据库，靠AI压缩+高效检索控成本，pip install memanto即装即用，解决agentic coding上下文持久化与复用痛点。

@0xJokker：（西语）给Claude、Codex、Cursor装上无限记忆，100%免费开源，叫Memanto，GitHub已超1K stars。保存工作会话完整上下文、用AI组织压缩、90ms内取回相关内容，无需向量库、无需复杂配置，一行pip install memanto。

原帖 ↗

mylifcc @mylifcc 73

Warp开源仓库的agent指导设计最值得学的不是某个AGENTS.md写得多好，而是把开源项目维护做成一套agent-native workflow：issue triage、spec、实现、review、CI诊断全部流程化。

原帖 ↗

omarsar0 @omarsar0 238

用LLM-as-judge做评测值得读这篇：整体打分会掩盖推理过程和天花板效应。BINEVAL把每个评估维度拆成原子级是非题，对每个输出独立作答再聚合为校准的多维分数；每个问题级判定可检查，能精确定位输出为何低分，并直接作为定向改进prompt的信号。在SummEval、Topical-Chat、QAGS上匹配或超过UniEval和G-Eval，免训练，事实一致性表现尤佳。

原帖 ↗

ChatGPTapp @ChatGPTapp 5351

ChatGPT官方预告：新模型即将到来。

@OpenAI： OpenAI推出下一代Frontier模型GPT-5.6 Sol限量预览，同时发布GPT-5.6 Terra（面向高效日常工作的均衡模型）和GPT-5.6 Luna（面向大批量工作的高速低价模型）。

原帖 ↗

yan5xu @yan5xu 26

企业FDE落地约等于调教长期agent，本质是调教好agent让别人用。调教分两层：能力层（装工具，让agent接入企业上下游业务系统）和认知层（两种给知识方式——显式注入文档/SOP/skill定义，隐式沉淀即实际使用中trajectory形成Agent Memory并反馈纠正）。

@yan5xu： persistent agent靠对话摘要（memory）+trajectory沉淀隐性知识。

原帖 ↗

IndieDevHailey @IndieDevHailey 385

开源AI新闻雷达Horizon（MIT协议）：从源头抓一手内容，用AI智能打分、去重、补充背景、总结社区讨论，自动生成中英双语每日简报。支持HN/Reddit/Telegram/RSS/X/GitHub/OpenBB等源，兼容Claude/GPT/Gemini/DeepSeek/Ollama，同一事件跨平台自动合并并补背景，支持GitHub Pages/邮件订阅/飞书钉钉Slack Discord Webhook推送，Docker一键部署+GitHub Actions定时更新，10分钟生成第一份专属日报。

原帖 ↗

Gorden_Sun @Gorden_Sun 589

Google Finance正式上线：相比传统资产管理软件，可用自然语言提问让AI分析投资组合，能设置定时任务每天发送关心的金融简报。

原帖 ↗