Spotify × Claude Code 工业级落地 + Cognition Devin Fusion + Claude Azure GA:agent 工程的下一阶段竞争从模型层下沉到 harness 层
过去 24 小时模型发布继续暂缓,但 agent 工程的下一阶段轮廓已经清晰,三条主线同日落地。其一,Claude Code 作者 Boris Cherny 与 Spotify 工程 VP Niklas Gustavsson 公开对谈,披露 Spotify 每天约 4500 次生产部署、约 73% PR 涉及 AI、judge 评审模型把迁移 PR 通过率从约 25% 拉到约 80%,Boris 本人更有超 40% 代码由『验证循环』生成。其二,Cognition 发布 Devin Fusion 混合模型 harness,把达到 Fable 级智能的成本压低约 35%,并把『能跑 benchmark』与『能写生产代码』两条曲线明确分开。其三,Claude Opus 4.8 与 Haiku 4.5 在 Microsoft Foundry 正式 GA,补齐 Anthropic 云渠道的最后一块拼图,同日 bboczeng 披露其 6 月 ARR 约 470 亿美元。此外,百度 Unlimited-OCR 以 3B 总参 / 570M 激活的 MoE 冲上 HF/GitHub 四榜;美团 LongCat 揭晓 Owl Alpha——OpenRouter 日调用量全球 Top 3、三大 Agent 场景月调用量均登顶。这些事件指向同一判断:模型 API 同质化之后,竞争重心已从『谁的模型更强』下沉到 agent 工程范式、云厂商渠道、企业渗透速率三个更深的变量。
今天没有新模型,但竞争主轴已切。当模型迭代进入平台期,头部厂商的较量正从『谁的模型更强』下沉到模型之外的三层:**agent 工程范式**(Spotify×Boris 对谈坐实『LLM 写 + judge 评 + 验证循环』的工业级可行、Cognition 把 harness 抬到产品命名高度)、**云厂商渠道**(Claude 在 Azure Foundry GA,Anthropic 凑齐四足鼎立)、**企业渗透速率**(Anthropic 6 月 ARR 冲到约 470 亿美元),三条暗线在 6-29 同日加速——这才是今天真正的拐点。
本期重点 · 深度报告
5 篇深度调研,点进去看完整分析与多源交叉验证
快讯 · 看标题就懂
15 条次要信号,附早报判断与原始链接
Arena 跑通 $100M ARR:Agent Mode 上线百万级长时多回合工具调用,评估维度从人类偏好投票扩展到任务完成率/幻觉率
Arena(原 Chatbot Arena / LMSYS 衍生项目)公布商业化里程碑:评估产品上线仅 8 个月即达到 $100M 年化收入运行率。社区规模达数千万;Agent Arena 面向长时 Agent 在真实复杂任务上的工具调用、反馈适应、错误恢复与目标达成能力进行评估,正从人类偏好投票扩展到客观指标(任务完成率、幻觉率等)。
8 个月 $100M ARR + 评估范式从主观转向客观,evaluation 成为独立产业的拐点。
模型厂商:Harness / 路由 / 微调的客观评估标准将影响商业定价;Cognition / Cursor / Cline 等 agent 厂商:既是 Arena 客户也是潜在竞品;开源评估:openevals / benchflow-ai/awesome-evals 等开源项目将面对 Arena 的商业化压力。
8 个月 Arena $100M ARR 用时
8 个月做到 $100M ARR 是 SaaS 史上最快之一,比 Cursor / Linear / Notion 早期都快。更重要的信号是评估范式从『人类偏好投票』转向『客观指标(任务完成率/幻觉率)』——这意味着 evaluation 正成为与训练同级的独立产业。当 evaluation 有了 $100M ARR 的商业模式,所有做 agent 框架、模型路由、harness 的厂商都会变成它的客户或对手——Arena 已经从『排行榜』变成『评测基础设施』。
接下来看:开源评估(awesome-evals / openevals / lm-eval-harness)是否会被 Arena 收编或边缘化
Meta Brain2Qwerty v2 增量追踪:开源训练代码 + BCBL 发布 v1 数据集,9 名志愿者平均词准确率 61% / 最佳 78%
Meta 在 v2 登上 Nature 的同时,开源 v1/v2 完整训练代码,合作方 BCBL 发布 v1 数据集。9 名健康志愿者 MEG 打字 10 小时 × 约 22,000 句,平均词准确率 61%,最佳志愿者 78%;>50% 的句子解码错误 ≤1 词。增量视角:本事件昨天已写过全量深度页,本期仅做增量追踪。
昨天已写过全量深度页,本期仅做增量追踪,聚焦开源代码 + BCBL v1 数据集释放。
BCI 研究者:可直接复用 Meta 训练代码复现 v1/v2 结果;企业 BCI 玩家:开源基线降低了进入门槛,商业差异化更靠硬件 + 临床合作;Meta:在非侵入式 BCI 赛道继续以『开源+论文』打法压制 Neuralink 等闭源玩家。
平均 61% / 最佳 78% Brain2Qwerty v2 词准确率
增量看点是开源代码 + 数据集的同步释放——Meta 走的是『论文 + 代码 + 数据』三件套路线,与 OpenAI 形成鲜明对比。这意味着 Brain2Qwerty 不只是 Meta 的 PR 项目,而是真正可以被全球 BCI 研究者复现的基线。值得跟踪:BCBL v1 数据集是首发 v1,而 v2 数据是否开源尚未提及——若 v2 数据不开放,则『全栈开源』叙事会出现裂缝。
接下来看:是否有第三方研究机构在 GitHub 仓库基础上跑出可对比的复现结果
美团 LongCat-2.0 上线 ZenMux:总参 1.6T / 激活 48B 的 MoE,完全脱离 NVIDIA 在 AI ASIC 超算上训练
LongCat-2.0(美团开源 MoE)上线 ZenMux 平台:总参 1.6T、每 token 激活约 48B、支持 1M 上下文,主打长上下文、代码与 agentic 工作流,跑在 AI ASIC 超算上(完全脱离 NVIDIA)。Coin Bureau 跟进称这是『中国最大、首个摆脱英伟达芯片训练的 AI 模型』。
国产大模型在算力供应链上的标志性突破,虽然规模与商业化路径都还不清晰,但战略意义大于短期影响。
算力供应链:为国产 AI ASIC(华为昇腾、寒武纪、海光等)提供新的『客户背书』案例;模型厂商:1.6T/48B MoE + 1M 上下文是当下主流配置;企业买方:长上下文场景新增一个开源选项。
总参 1.6T / 激活 48B LongCat-2.0 模型参数
LongCat-2.0 与 Owl Alpha 在同一周亮相,但定位截然不同——Owl Alpha 走『匿名身份 + OpenRouter 全球 Top 3』路线,LongCat-2.0 走『完全脱离 NVIDIA 的 ASIC 训练』路线。两者叠加意味着美团同时在『模型分发渠道』与『算力供应链』两条战线上同步推进。1.6T 总参 / 48B 激活的 MoE 比例(约 3%)是当下 MoE 主流,1M 上下文则直指 Long-context 实战场景。Coin Bureau『中国首个摆脱英伟达』的表述需要保留余地——国内多家大厂都有自研 / 国产芯片训练经验,但美团是首个公开承认『完全脱离 NVIDIA』的。
接下来看:美团 AI ASIC 超算的具体技术栈(华为昇腾 / 寒武纪 / 自研)是否会被官方披露
Step 3.7 Flash 在 Nous Portal 免费期延长 15 天:Hermes Agent 用户反馈良好,走 Agent 效率/编程/搜索/多模态工作流
Nous Research 联合 StepFun 把 Step 3.7 Flash 在 Nous Portal 的免费使用期延长 15 天。Step 3.7 Flash 是一款面向 Agent 效率、编程、搜索与多模态工作流的 MoE 视觉语言模型,Hermes Agent 用户反馈良好。
国产 MoE 通过 Nous Portal / Hermes Agent 进入海外 agent 工具生态的精细化打法。
开发者:Hermes Agent 用户可直接在 Nous Portal 上免费试用 Step 3.7 Flash;模型厂商:『先 agent 验证、后 benchmark 验证』可能成为新打法;Step 3.7 Flash:免费期延长是抢占 agent 工具默认路由的机会窗口。
Step 3.7 Flash 延长免费期是一个『市场测试』信号——Nous Research 通过 Hermes Agent 把 Step 3.7 Flash 推到真实 agent 工作流中验证,而不是通过 benchmark 刷分。这种『用 agent 工具反馈决定模型曝光』的策略,与传统『先刷 benchmark 再找落地』截然相反,是国产 MoE 在海外 agent 生态中的精细化打法。值得关注:Step 3.7 Flash 走 MoE + VLM 路线,正好踩在当前 agent 工具对视觉/多模态需求最强的窗口期。
接下来看:Hermes Agent 团队是否会继续推荐 Step 3.7 Flash 作为默认视觉模型
喵神 onevcat 开源 sim-use:让 AI agent 看到 iOS Simulator / Android 模拟器屏幕并直接操作
喵神(onevcat)开源 sim-use:让 AI agent 看到 iOS 模拟器/Android 设备的屏幕并直接操作的命令行工具。一条命令把整个屏幕打包成 agent 可理解的紧凑表示,再一条命令点击任意元素,完成『Plan / code / verify / ship』里的 verify 闭环。iOS Simulator 与 Android 通用。
agent 在移动端 verify 环节的工具空白被填补,移动端 UI 测试进入 agent-native 阶段。
移动端开发者:无需再依赖 Appium / XCUITest,可直接用 sim-use 做 agent 驱动的 UI 验证;测试工具厂商:Appium / XCUITest 将面对 agent-native 竞争;agent 框架:CrewAI / AutoGen / Hermes Agent 等将 sim-use 作为移动端默认工具集成。
sim-use 直接填补了 agent 在『移动端 verify』环节的工具空白——之前的 verify 主要是 web 端(Playwright / Puppeteer)与 API 端,移动端一直缺位。喵神在 Let's Vision 大会上讲的就是『让 agent 参与 mobile 开发自主验证』,现在把开源部分单独发布。这意味着移动端 UI 自动化测试将进入『agent 默认接管』阶段,Appium / XCUITest 等传统工具将面对 agent-native 竞争。
接下来看:喵神后续是否会开源更多 mobile dev agent 工具
X 官方发布 hosted X MCP:Agent 可直连 X API 实时数据,兼容 Grok/Cursor/任意 MCP 客户端,op7418 实测 0.01 美元/次
X 官方发布 hosted X MCP:Agent 可无设置直连 X API 实时数据,兼容 Grok、Cursor 以及任意 MCP 客户端。op7418 实测收费 0.01 美元/次(个人 API 优惠),拉三天书签花 0.1 美元;提供四步配置教程:创建 Twitter 开发者 APP+充值 → 拿配置 ID → 把截图给 Codex/Claude 让它们写配置文件 → 授权启动。
X 官方把 MCP 接入标准化,意味着 MCP 正在成为 agent 工具连接的事实标准。
Agent 开发者:无需再写 Twitter API 包装代码,可直接通过 MCP 拉 X 数据;企业 agent:批量爬取 X 数据的成本将快速放大,需要预算管理;Anthropic / MCP 生态:MCP 协议获得主流平台官方背书,加速成为 agent 工具连接标准。
0.01 美元/次 X MCP 调用定价
X 把 MCP 官方化意味着 Twitter / X 终于从『被 agent 抓取的平台』变成『主动开放给 agent 的基础设施』。0.01 美元/次的定价对个人开发者极友好,但对批量爬取的 enterprise agent 是可观成本。X 选择走 MCP(而不是自研协议)是对 Anthropic 协议的隐性背书——MCP 正在变成 agent 工具连接的事实标准,这一点比 X 自己的产品发布更重要。
接下来看:X 是否会推出针对企业批量调用的阶梯定价
Cursor iOS 版上线 + Composer 2.5 基于 Kimi k2.5 训练:常驻云端 agent / 远程控制本机 agent / 7 月 5 日前 75% off
Cursor 上线 iOS 版:随时启动常驻云端 agent,或远程控制你电脑上正在跑的 agent。Composer 2.5 在 Kimi k2.5 基础上训练,质量不错且更便宜;支持无限制接入第三方模型(如 GLM 5.2 等开源),App 内 7 月 5 日前 Composer 2.5 75% off。
agent 移动化 + 开源模型商业化的双重信号,与 Cognition Devin Fusion 形成『harness 层是护城河』的同构判断。
开发者:在手机上随时启动 Cursor agent + 远程控制 PC agent 的工作流成为新常态;模型厂商:Kimi k2.5 / GLM 5.2 等开源权重被 Cursor 训练成产品,商业化路径明确;竞品:Cognition / Anthropic / OpenAI 都将面对『Cursor 把 agent 移动化』的新标准。
Cursor iOS 版 + Composer 2.5 是『agent 移动化 + 开源模型商业化』的双重信号——iOS 版让 agent 不再绑定 PC,Composer 2.5 在 Kimi k2.5 上训练证明『开源权重 + 商业 harness』的组合可以做出有竞争力的产品。这与 Cognition Devin Fusion 的逻辑同构:模型层不是关键,harness 才是。中文社区关于『被老马收购』的解读虽有玩笑成分,但 Cursor 当前的商业化能力确实支撑得起『开源模型 + 商业 harness』的估值故事。
接下来看:Composer 2.5 在 Kimi k2.5 上训练的具体微调方式是否被披露
论文:35B Agent 通过智能体调度达到万亿参数性能(arXiv 2606.30616),『不扩参数扩视野』范式
论文《Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent》主张 35B Agent 通过智能体调度能达到万亿参数级模型性能,挑战『只靠扩参』的传统思路。HF 54 分 / 20+ 评论。
为『小模型 + agent harness』路线提供学术背书,但需要独立复现确认。
模型厂商:可能进一步把『agent 调度』作为产品差异化重点;研究界:复现这篇论文的工作会快速增加;Cognition / Anthropic:这条论文路径与 Devin Fusion / Fable 5 路线同构。
这篇论文的核心论点是『扩展视野比扩展参数更划算』——通过 agent 调度,小模型也能达到万亿参数模型的性能。如果方法被独立复现,会进一步印证 2026 H1『小模型 + agent harness』赛道的正确性,即 Cognition Devin Fusion / Anthropic Fable 5 都在同一方向上。但『达到万亿参数性能』的对照基准需要被严格审视——是否是某个被选中的 benchmark,而不是全面的能力对比。
接下来看:论文作者是否会被 Anthropic / OpenAI / Cognition 招募
论文:Agent-Native Memory System 是否就绪?(arXiv via AlphaXiv),12 套记忆系统 × 11 个数据集评测,无单一架构通杀
论文《Are We Ready For An Agent-Native Memory System?》把 Agent 记忆拆为表示与存储、抽取、检索与路由、维护 4 个模块,评测了 12 套记忆系统 × 11 个数据集。结论:无单一记忆架构通杀——图记忆适合更新事实和实体关系,混合系统做过滤回忆更强,长上下文在时序相关时仍有效,仅追加记忆则主要返回原始事实。
当前最系统的 agent 记忆系统横评,结论『无单一架构通杀』对所有 agent 框架厂商都有指导意义。
Agent 框架厂商:Letta / Mem0 / Zep / Cognee 等将面对『必须组合』的明确信号;企业 agent:不同记忆方案需要按场景选择,而不是一刀切;研究界:Agent 记忆会从单一架构走向『混合系统』主流。
12 套记忆系统 × 11 个数据集 论文评测覆盖
这篇论文给出了当前 agent 记忆系统最系统的横评——结论『无单一架构通杀』本身是关键信息,意味着 agent 记忆不是『装一个 Mem0/Zep/Letta 就完事』,而是需要按场景组合(事实关系/语义回忆/时序上下文/原始事实)。对所有做 agent 框架的厂商(Letta / Mem0 / Zep / Cognee 等)都是一个『必须配合组合使用』的信号,而不是『一家独大』。
接下来看:这篇论文的作者是否会被 Anthropic / OpenAI 招募
韩国万亿投资 DRAM/HBM + 人形机器人:AI 算力供应链的国家级加注(HN 227 分 / 154 评论)
韩国宣布 $1T(美元)规模投资,覆盖 DRAM/HBM 内存扩产与人形机器人产业链。HN 227 分 / 154 评论,行业最高热度。直接影响 AI 算力供应链上游。
HBM + 内存 + 机器人产业链的国家级加注,叠加 SK 海力士在 HBM 上的领先位置。
内存供应链:SK 海力士 / 三星 / 美光将受益;HBM 涨价进一步加剧;人形机器人:产业链上游(执行器/传感器/芯片)将出现产能紧张;模型厂商:面对内存 + 算力双重涨价,基础设施成本压力上升。
$1T(美元) 韩国投资规模
$1T 投资规模罕见——这是国家级别对 AI 算力供应链 + 人形机器人的双向加注,叠加 SK 海力士在 HBM 上的领先位置,意味着韩国要把『内存 + 机器人』做成 AI 时代的基础设施出口。叠加昨天报道的『贾扬清离开英伟达』+ 本期『美团 LongCat-2.0 完全脱离 NVIDIA』+ 韩国万亿加注,三件事指向同一暗线:HBM / 内存 / 国产芯片 / 人形机器人的『非英伟达算力供应链』正在被全球范围内加速构建。
接下来看:SK 海力士 HBM 涨价幅度是否进一步上行
trotsky1997/OpenFugu 开源复现 Sakana Fugu:统一 LLM 编排器(读 → 跑 → 训 → 服务),GitHub 313 星
trotsky1997/OpenFugu 在 GitHub 拿下 313 星,Sakana Fugu 的开源复现,统一 LLM 编排器覆盖『读 → 跑 → 训 → 服务』全链路。这是把 Sakana 闭源的 Fugu 用开源方式重新实现,降低中小团队使用门槛。
把 Sakana Fugu 闭源编排器开源复现,为中小团队降低 LLM 编排门槛。
中小团队:无需再依赖 BentoML / LangChain 等通用编排器,可用 OpenFugu 做更细粒度的『读 → 跑 → 训 → 服务』流水线;Sakana:失去编排器差异化,被迫向模型 + 算法层进一步聚焦;开源生态:可能出现更多『对标闭源编排器』的开源复现项目。
313 OpenFugu GitHub Star
Sakana Fugu 一直是日本 AI 头部公司里『被关注但难复现』的项目——OpenFugu 把它做成开源编排器,意味着中小团队可以用与 Sakana 同样的工作流构建自训练模型。313 星不算爆发但对『基础设施类』项目已经算早期优质,值得关注:OpenFugu 是否会改变 LLM 编排器赛道——目前这条赛道由 BentoML / LangChain / LlamaIndex / Ray Serve 等占据。
接下来看:Sakana 是否会针对 OpenFugu 推出差异化产品(更快/更省/更专)
Qwen 团队研究员 Chujie Zheng 公开打假:前 Qwen RL 负责人 @TianhangZhuzth 简历夸大,LinkedIn 自称『Senior Research Scientist for Qwen』
Qwen 团队研究员 @ChujieZheng 在线打假:X 上爆火的『前 Qwen 团队 RL 负责人、01ai 成员、现 Fundamental LLM 训练负责人』@TianhangZhuzth,其实『在第一代 Qwen 模型之后就离开了我们团队,那时候也根本没有『RL 负责人』这个岗位』。MaxForAI 进一步挖出其 LinkedIn 自称 Senior Research Scientist for Qwen——疑似简历夸大。
头部团队开始主动维护人才品牌真实性,行业『简历通胀』与『流量经济』的典型案例。
招聘方:对『前 X 团队 RL 负责人』类标签需要求证;模型厂商:开始主动维护人才品牌的真实性;行业舆论:X / LinkedIn 上『AI 研究者』的可信度进一步分化。
这条打假看似八卦,实则是 AI 行业『简历通胀』与『流量经济』的典型案例。在 X 上,『前 X 团队 RL 负责人』这样的标签可以快速换流量,导致 LinkedIn 履历与实际工作出现偏差。Qwen 团队亲自下场打假,说明头部团队开始主动维护自己的『人才品牌真实性』,这对长期招聘质量与外部合作信任何都重要。另一个信号:00 后 / 95 后 AI 研究者的『自我包装』已经系统化,与传统『靠论文与引用说话』的路径分叉。
接下来看:@TianhangZhuzth 后续是否回应或修改 LinkedIn
Notion SDR/BDR 招聘玩法:7 月 15 日前做一个『销售团队真会用的 agent』作为申请材料
Notion 招 SDR/BDR 甩开简历玩法:应聘者需在 7 月 15 日前做一个『销售团队真会用的 agent』作为申请材料。AI Agent + 真实业务场景的招聘 hack,进入大厂销售岗的新通道。
招聘 hack 的标志性事件,反映『AI agent 能力』正在变成岗位通用凭证。
招聘方:Notion 模式可能很快被 SaaS 厂商复制;应聘者:需要把『agent 能力』作为求职材料的默认组成部分;SaaS 行业:销售岗位的招聘门槛出现显著上移。
Notion 这种『招销售靠做 agent』的玩法,本质是用『岗位能力』做招聘漏斗——不需要看简历,直接看应聘者能不能做出销售团队真会用上的东西。这是一个比传统『销售话术 + 客户案例』更精准的筛选方式,可能很快被其它 SaaS 公司复制。深层信号:AI agent 正在变成『岗位能力证明』的通用凭证,『我会用 AI 干活』会逐步成为岗位默认要求,而不需要单独写进 JD。
接下来看:是否有其它 SaaS 公司(Linear / Stripe / Vercel)跟进类似玩法
Codex 5.5『破限开源项目』:通过 model_instructions_file 注入 UNRESTRICTED 指令,渗透测试/逆向工程不再被拒,封号风险高
Codex 5.5 破限开源项目:思路直接——通过 model_instructions_file 给 GPT-5.5 塞一套无限制指令,让 Codex CLI 直接跑 [MODE: UNRESTRICTED] 模式。以前问渗透测试、安全研究都拒,现在『怎么做 SQL 注入测试』都给方法论。覆盖逆向工程、渗透测试、NSFW 虚构内容。跑一个 python 脚本 + 重启 Codex 即生效。作者提示:封号风险高,建议小号玩。
暴露 GPT-5.5 / Codex 在 RLHF 安全对齐与 agent 工具化之间的张力。
模型厂商:RLHF 安全对齐在 agent harness 场景下出现新挑战;安全研究:模型对渗透测试的态度边界重新被定义;OpenAI:Codex 用量异常 + 破限项目双重压力,需要重新设计 agent 时代的『模型安全 + 用量』平衡。
这个『破限项目』的出现暴露了 GPT-5.5 / Codex 在 RLHF 安全对齐与『agent 工具化』之间的张力——当模型被塞进 agent harness 时,用户对『模型能做什么』的边界预期完全不同。这与 OpenAI 6-30 早报披露的 Codex 用量异常重置事件形成对照:一边是用户主动『破限』,一边是 OpenAI 主动收紧用量上限,两条战线都说明 agent 时代的『模型安全边界』正在被反复拉扯。
接下来看:类似破限项目是否会扩展到 Claude / Gemini 等其它模型
dappOS xBubble:VibeCoding 一张图 + 一个商业目标,小时级搭出可收钱在线 shop,USDT 钱包支付 + Cloudflare 部署
OPC(一人公司)方向:dappOS 的 xBubble 演示 VibeCoding,一张图 + 一个商业目标,小时级搭出完整可收钱在线 shop(商品素材、目录筛选、购物车、USDT 钱包支付、Cloudflare 部署、后台订单管理)。qinbafrank 点评:不同于 Cursor/Lovable 停留在 Prompt-to-Code,xBubble 走 SOP-to-business 路径,把部署/支付/迭代都做掉。
把 VibeCoding 从 Prompt-to-Code 推到 SOP-to-business 端到端,OPC 工程化交付的关键拼图。
独立创业者:可在小时级搭出可收钱的电商 shop,门槛进一步降低;VibeCoding 工具:Cursor / Lovable / Bolt 将面对『端到端商业闭环』的竞争压力;支付与部署生态:USDT + Cloudflare 的组合在海外电商 / 加密原生场景中进一步固化。
xBubble 的关键不是『VibeCoding』本身(这块 Cursor / Lovable / Bolt 已经做了),而是『VibeCoding + 支付 + 部署 + 运维』的端到端闭环——这才是『一人公司(OPC)』真正能落地的最小集合。当一张图就能搭出可收钱的 shop,意味着 OPC 不再是『概念』而是『工程可交付』,但目前仅在 USDT 支付 + 海外电商场景,国内合规与跨境支付仍是空白。
接下来看:OPC 一人公司的真实经济模型(单人月营收 / 边际成本)是否会被披露
推特上在讨论什么
精选 10 条从业者发言,点"原帖"看一手出处
Meta 发布脑机接口研究新里程碑 Brain2Qwerty v2(非侵入式脑-文本解码):在 v1 当天登 Nature 的基础上,v2 是当前性能最高的端到端实时从原始脑信号解码整句的流水线,从字符级升级到词级与语义级解码,整体沟通准确率显著提升,面向因脑损伤或疾病失去沟通能力的数百万患者。v1 同步发表于 Nature。
原帖 ↗Cognition 发布 Devin Fusion:面向 agent 编程的混合模型 harness。批评『传统模型路由过得了 benchmark 但写不出真能合的代码』,Fusion 用一个较小的 sidekick 模型与主模型并行,主模型把子任务委派给 sidekick 并复核结果;测试中把 Fable 级智能的成本降低 35% 同时保留体验。核心思路是用并行 sidekick 替代『中途切换模型』,避免丢缓存与高成本。
原帖 ↗Codex 团队 48 小时排查用量异常:Codex 工程负责人 thsottiaux 宣布 1 小时内再次全面重置 Codex 用量上限,并给所有用户额外存入一次『banked reset』。原因包括 Auto-review 变得更主动、子 agent 被更多触发、background suggestions 重试过频——已回滚并修复。reach_vb 同步公告。OpenAIDevs 预告『Codex 快捷键升级 7 月 15 日上线』。
原帖 ↗Cursor 上线 iOS 版:随时启动常驻云端 agent,或远程控制你电脑上正在跑的 agent。Composer 2.5 在 Kimi k2.5 基础上训练,质量不错且更便宜;支持无限制接入第三方模型(如 GLM 5.2 等开源),App 内 7 月 5 日前 Composer 2.5 75% off。中文社区解读:『开源强=Cursor 强,且被老马收购,前途无量。』
原帖 ↗X 官方发布 hosted X MCP:Agent 可无设置直连 X API 实时数据,兼容 Grok、Cursor 以及任意 MCP 客户端。op7418 实测收费 0.01 美元/次(个人 API 优惠),拉三天书签花 0.1 美元;提供四步配置教程:创建 Twitter 开发者 APP+充值 → 拿配置 ID → 把截图给 Codex/Claude 让它们写配置文件 → 授权启动。
原帖 ↗LongCat-2.0 上线 ZenMux(美团开源 MoE):总参 1.6T、每 token 激活约 48B、支持 1M 上下文,主打长上下文、代码与 agentic 工作流,跑在 AI ASIC 超算上(完全脱离 NVIDIA)。Coin Bureau 跟进称这是『中国最大、首个摆脱英伟达芯片训练的 AI 模型』。
原帖 ↗Qwen 团队研究员 @ChujieZheng 在线打假:X 上爆火的『前 Qwen 团队 RL 负责人、01ai 成员、现 Fundamental LLM 训练负责人』@TianhangZhuzth,其实『在第一代 Qwen 模型之后就离开了我们团队,那时候也根本没有『RL 负责人』这个岗位』。MaxForAI 进一步挖出其 LinkedIn 自称 Senior Research Scientist for Qwen——疑似简历夸大。
原帖 ↗OPC(一人公司)方向:dappOS 的 xBubble 演示 VibeCoding,一张图 + 一个商业目标,小时级搭出完整可收钱在线 shop(商品素材、目录筛选、购物车、USDT 钱包支付、Cloudflare 部署、后台订单管理)。qinbafrank 点评:不同于 Cursor/Lovable 停留在 Prompt-to-Code,xBubble 走 SOP-to-business 路径,把部署/支付/迭代都做掉。
原帖 ↗Claude 官方对话:Spotify 工程 VP Niklas Gustavsson 透露 Spotify 每天发布 4500 次生产环境,73% 的 PR 已经是 AI 辅助。sporadica 转发吐槽:『这网站一年到头没什么变化,年底却给个基础得不能再基础的歌单回看数据——能不能解释下你们在干嘛?』
ClaudeDevs:Claude Code 作者 Boris Cherny 与 Spotify 工程 VP Niklas Gustavsson 公开对话:Spotify 每天约 4500 次生产部署,约 73% PR 涉及 AI 辅助,judge 评审模型把迁移场景 PR 通过率从约 25% 拉到约 80%。原帖 ↗
Codex 5.5 破限开源项目:思路直接——通过 model_instructions_file 给 GPT-5.5 塞一套无限制指令,让 Codex CLI 直接跑 [MODE: UNRESTRICTED] 模式。以前问渗透测试、安全研究都拒,现在『怎么做 SQL 注入测试』都给方法论。覆盖逆向工程、渗透测试、NSFW 虚构内容。跑一个 python 脚本 + 重启 Codex 即生效。作者提示:封号风险高,建议小号玩。
原帖 ↗