@ChatGPTapp 6493 likes
OpenAI 官方放出新一代前沿模型 GPT-5.6 的限量预览,一次推三档:GPT-5.6 Sol(下一代旗舰前沿模型)、GPT-5.6 Terra(日常高效场景的均衡档)、GPT-5.6 Luna(面向高并发的快速廉价档)。配文"New models are on the horizon",社区测试集中在前端设计、仿真、游戏与建模能力的显著提升,并普遍拿来对标 Fable。
OpenAI:正式介绍 GPT-5.6 三档模型:Sol(前沿旗舰)、Terra(日常均衡)、Luna(高并发快速廉价)的限量预览。
原帖 ↗ @thdxr 3348 likes
OpenCode v2:TUI、桌面端和 Web 端的所有实例共享同一个后端,默认全部同步,无论开多少个窗口资源占用都被压到最低。
原帖 ↗ @OpenAIDevs 2967 likes
Codex 本周一批体验优化上线:长对话线程滚动更顺滑、浏览会话时阅读位置不再跳动;线程切换的后台开销降低,可加载更深的本地历史而无需一次性全量载入;归档对话更易滚动和删除;Dock 与侧边栏的未读角标保持同步。从 Codex 复制内容粘贴到 Slack 时可完整保留 Markdown 格式(列表/加粗/代码块/链接),大段粘贴不再卡 UI,草稿文本可在线程切换间保留,粘贴的图片预览支持方向键导航。
原帖 ↗ @sharbel 2096 likes
本周 GitHub 涨星最快的 10 个仓库,主题集中在 agent skill 包与 context 文件正在成为新的开发者 dotfiles:1) OpenMontage(+17.2K)首个开源 agentic 视频制作系统,12 条 pipeline、52 个工具、500+ agent skills;2) skills(+11.1K)来自作者 .claude 目录的工程师 skills;3) codebase-memory-mcp(+7.6K)把代码库索引成持久知识图谱,支持 158 种语言、亚毫秒查询、省 99% token;4) Agent-Reach(+7.2K)给 agent 读/搜 Twitter/Reddit/YouTube/GitHub/B站/小红书,零 API 费;5) daily_stock_analysis(+6.9K)LLM 驱动多市场股票分析;6) Anthropic-Cybersecurity-Skills(+5.1K)817 个安全 skill,映射 MITRE ATT&CK 等 6 套框架;后续还有 design.md、ai-website-cloner-template、voicebox、penpot。
原帖 ↗ @thsottiaux 1949 likes
OpenAI 的 Codex 本周落地一批体验改进:能流畅处理超长对话线程;新增可悬停的导航栏预览/跳转各轮;设置搜索覆盖更多控件,自定义 provider 设置更易找;缩放时不再错位 tooltip/对话框/菜单等;复制到 Slack 保留 Markdown(列表/加粗/代码/链接)、大段文本粘贴不再卡死 UI;以及一个专门的 Pets 面板。
原帖 ↗ @omarsar0 842 likes
推荐一篇关于 LLM-as-judge 的论文 BINEVAL:把每条评估标准拆成若干原子化的是/否问题,对每个输出逐题独立判断,再聚合成校准过的多维分数。好处是整体评分会隐藏推理过程与天花板效应,而 BINEVAL 每个问题级判定都可检视,能精确诊断输出为何低分,且这些判定可直接反哺成有针对性的提示词改进信号。在 SummEval、Topical-Chat、QAGS 上无需训练即可匹敌或超过 UniEval 与 G-Eval,在事实一致性上尤其强。
原帖 ↗ @0xLogicrw 83 likes
DeepSeek 联合北京大学发布投机采样加速框架 DSpark 技术报告,并开源全栈代码库 DeepSpec,DSpark 已部署于 DeepSeek-V4 线上业务。在输出无损前提下,Flash 版单用户生成速度提升 60%-85%,Pro 版提升 57%-78%,表现超过原 MTP-1 基线。技术上先用 DFlash 并行主干生成隐藏状态,再追加轻量马尔可夫头(查表+一次矩阵乘)串行注入相邻词关联,配合置信度预测头与异步零开销调度避免高并发下吞吐崩塌。DeepSpec 内置支持 Qwen3、Gemma,提供从下载提示词到基准评估的完整 Python 工具链。
danielhanchen:DeepSeek 发布用于 V4 Flash 与 Pro 的 DSpark 投机解码方法,吞吐提升 51% 到 400%,且对 Gemma、Qwen 等模型同样有效;附 GitHub/论文/HF 链接。
原帖 ↗ @qinbafrank 52 likes
深度拆解 SpaceX 收购 Mesh(已获 FTC 快速批准):Mesh 由三位前 SpaceX 工程师 2025 年创立,创始人曾主导 Starlink 星间激光链路设计,核心产品是面向 AI 数据中心的高速光学收发器(用光代替电信号互联)。收购动机:收回核心人才与技术、解决 AI 数据中心互联功耗/速度瓶颈(光互联是下一代方案)、为太空算力(轨道数据中心,最早 2028 部署)铺路。SpaceX 截至 3 月已部署超 2.3 万个星间激光器(约对应万条量级活跃链路),并已把 ISL 技术商业化为 Plaser(Plug and Plaser),2024 年 9 月经 Polaris Dawn 完成在轨验证。引用推文提到 SpaceX 已与 Anthropic、Google 签算力合同。
qinbafrank:SpaceX 以全股票方式收购 Cursor 开发商 Anysphere,Cursor 隐含估值 600 亿美元,预计 2026 Q3 完成;与 Anthropic、Google 的算力租赁合作一年带来近 250 亿美元现金流。
原帖 ↗ @realNyarime 46 likes
Anthropic 旗舰模型 Mythos 5 的出口管制部分解禁,仅限三类:(1)Anthropic 自家非美籍研究人员;(2)美国"可信合作伙伴"及其外籍员工;(3)美国政府文职机构与国家实验室。其余所有人仍需申请出口许可证。OpenAI 的 Fable 5 仍被全面禁止——目前被华府出口管制的前沿模型只有 Anthropic 和 OpenAI 两家,其他厂商尚未"够格"。
原帖 ↗ @markletree 29 likes
Coinbase 工程师披露本季度 AI 支出几乎砍半、而 token 用量持续攀升的实现细节:全部请求走自建 LLM 网关(单一端点+格式,跨厂商故障转移、脱敏、日志、成本管控)。三招省钱——(1)更便宜的默认模型:91% 员工根本碰不到用量上限,于是不降配额改默认廉价模型;(2)缓存:在 LibreChat 把命中率从 5% 拉到 60%,靠维持长而稳定的前缀让每次只对新 token 付全价;(3)缓存感知路由:对话缓存热时保持同一模型,TTL 失效后才重新选最优模型。下一步深入 coding harness 调优 subagent 与上下文管理。
brian_armstrong:Coinbase CEO:让 AI 支出在 token 指数增长下保持不变,靠更好默认/路由/缓存而非配额告警。明确在试用把默认模型换成 GLM 5.2、Kimi 2.7 等开源权重模型,实践后支出几乎减半。
原帖 ↗ @0xLogicrw 5 likes
援引聚合商 OpenRouter 的分析:开源模型与闭源前沿的性能差距已稳定在 3-6 个月,过去 18 个月闭源实验室没能拉开身位。具体数据:DeepSeek V4 Flash(2840 亿参数)在 SWE-bench Verified 拿到 79.0%,逼近 GPT-5.5;官方输入/输出定价 0.14/0.28 美元每百万 token,输出成本比 GPT-5.5 便宜约 150 倍,即便加西方云托管溢价实际成本也只有闭源前沿的约 1.3%。智谱 GLM 5.2 在 Artificial Analysis 开源权重智能指数排第一;MiniMax M3 用 MSA 稀疏注意力做原生图像/视频长上下文对标 Gemini Flash;英伟达 Nemotron 3 Ultra(Mamba-2 混合架构)为最强美国本土开源。
OpenRouter:四个开源权重模型已跨入能驱动真实 agentic pipeline 的区间,Insights 博客解读 6 月企业为何选它们。
原帖 ↗ @swyx 107 likes
顺着 Noam Brown(OpenAI 研究科学家)"任何评测上报都应固定推理预算"的说法可以推出一个有意思的结论:开源模型在"每美元算力能买到的 token"上远比闭源 API 划算。因此今天发布开源模型、或因处境而倾向开源的玩家,理应用"在主流推理服务商上按美元推理成本"来标注思考强度(thinking levels),而不是用横轴上的 token 数。核心是评测应按成本($)而非 token 数对齐。
saranormous:在 NoPriors 播客再次对谈 OpenAI 研究科学家 Noam Brown,聊大规模测试时计算(test-time compute)的影响,以及当模型被给予单任务 1000 万美元预算时会发生什么。议题包括:为何基准测试已失效、算力预算与推演、模型该思考多久、刷榜、能力随支出扩展时的安全性、对模型发布周期的影响、递归自我改进的极限、大规模多智能体协调,以及为何基准应按成本缩放。
原帖 ↗