三道墙同时砌起:Google 限 Meta 用 Gemini、HBM 涨价逼近算力天花板、self-improving loops 成 Anthropic 内部 agent 主流
过去 24 小时 OpenAI/Anthropic 官博零重磅,GPT-5.6 与 Claude Tag 进入余热期。当日真正的主线不在模型本身,而在三道正在砌起的『墙』:Google 据 FT 报道限制 Meta 使用 Gemini,把 API 条款变成竞争武器;投行 Jefferies 警告 HBM/内存 Q3 涨 50%、Q4 再涨 40%,可能逼停 AI 数据中心建设;Anthropic 内部 >90% 工程师已用 self-improving loops 构建 agent,『loop engineering』从热词走向方法论。模型发布暂缓,但围绕 AI 的竞争壁垒、物理供给与方法论正在加速成型。
模型发布暂缓,但围绕 AI 的三道墙正加速成型:Google 把模型访问条款做成对竞争对手的杠杆,预示 AI 上层竞争进入『条款战』;HBM/内存涨价逼近物理供给墙,可能反转云厂商 capex 增速;而 Anthropic 内部 >90% 工程师转向 self-improving loops,标记 agent 构建范式从『写 prompt』迁移到『写驱动模型的 loop』。今天真正改变的不是又出了一个新模型——当模型迭代本身进入平台期,竞争重心正从『谁的模型更强』下沉到『模型之外』的三层:谁能用条款卡住对手的供给、谁先被物理资源卡住自己的扩张、谁改了造 agent 的方法。模型层暂缓,供给战、物理战与方法论战才刚开局。
本期重点 · 深度报告
4 篇深度调研,点进去看完整分析与多源交叉验证
快讯 · 看标题就懂
12 条次要信号,附早报判断与原始链接
GPT-5.6 三档预览:进入余热期,无新官方动态
OpenAI GPT-5.6 Sol/Terra/Luna 三档预览(6-26 发布)进入第三天余热期,本期无新官方发布或 benchmark 更新。三档定价 Sol $5/$30、Terra $2.50/$15、Luna $1/$6,Terra 对标上代 GPT-5.5 便宜 2 倍,Sol 在 Terminal-Bench 2.1 自报 SOTA,广泛开放待『未来数周』。
维持主线连续性:GPT-5.6 仍是当前最受关注的前沿发布,但已进入等外部验证阶段,无需再开全量深度页。
对开发者:短期仍无法接入,只能等广泛开放;对竞争格局:三档定价重排单位智能价格梯度的影响要等真实负载验证。
$5/$30 · $2.50/$15 · $1/$6 三档定价(每百万 token,输入/输出)
连续三天跟进后,本期没有新进展值得再开深度页——这正是增量追踪规则的典型场景。值得继续盯的不是厂商自报 benchmark,而是两个外部可验证信号:Terra『对标上代、便宜 2 倍』在开发者真实负载上能否复现,以及『未来数周』广泛开放的确切时点。在此之前,GPT-5.6 仍是『报备政府的小范围预览』,对绝大多数开发者还摸不到。
接下来看:Terminal-Bench 公开榜单 Sol 名次与第三方复现 / '未来数周'广泛开放的确切时点
Claude Tag 延续:Karpathy 定性『LLM 交互第三代范式』
Claude Tag(6-23 发布,06-28 已深度跟进)本期为延续。新增解读视角:Karpathy 称其为 LLM 交互第三次重大重新设计——第一代访问的网站(ChatGPT 网页)、第二代下载的 App(Codex/Claude 桌面/Cursor)、第三代持久存在、异步运行、拥有组织级工具与上下文、嵌入工作流的实体。@GergelyOrosz 澄清重点不在 Slack,而在云端 AI 接入公司全部内部系统后『just works』。
Karpathy 的『第三代』定性把 Claude Tag 从功能更新提升为交互范式判断,值得作为解读视角留存,无需再开全量深度页。
对企业:常驻异步 agent 若兑现,天花板从『程序员』扩到『在 Slack 上班的所有人』;对竞品:差异化在集成深度而非入口。
Karpathy 的『三代』框架给 Claude Tag 提供了比产品功能本身更有解释力的叙事:真正突破不是『Agent 进了 Slack』,而是『一个接入企业全量内部系统、持久异步、可被任何人 @ 的云端实体』。但叙事兑现的唯一标准是集成做到开箱即用——这正是最大难题。把这条与本期 loop engineering 主题并看,2026 年 agent 的两条主线正在合流:交互范式从『单次调用』走向『常驻 loop 实体』,构建范式从『写 prompt』走向『写驱动模型的 loop』。
agent skills 从编码扩展到多模态:视频/动作技能库本周密集上新
继 06-28『agent skill 包成新 dotfiles』后,本周 GitHub 新增多个把 agent skills 推向多模态生产的仓库:Pluviobyte/video-production-skills(359★,可复用 AI 视频生产技能库,覆盖创作/复刻/动效/片头/QA)、iart-ai/motion-skills(222★,50 个开源技能教 coding agent 做动效/动画/视频)、Johell1NS/browser-search(188★,agent 网页搜索技能,用 SearXNG+反幻觉设计)。
agent skills 范式从编码向多模态生产扩展,是 skill 生态走向通用化的关键信号,值得单独追踪。
对创意/内容生产团队:可复用 agent 技能包降低视频/动效生产门槛;对 skill 生态:多模态 skill 成为新增长方向,跨平台兼容是关键。
359★ video-production-skills
222★ motion-skills
这是 06-28『skills as dotfiles』趋势的具体延伸,但方向值得单独点出:agent skills 正从纯编码扩展到视频/动效/网页检索等 multimodal 生产场景。意味着『给 agent 配技能包』这套范式不限于写代码——任何可标准化、可封装的生产流程都在被拆成可复用 skill。video-production-skills 和 motion-skills 同时冒头,说明创意生产侧的 agent 化正在形成第一批可移植能力包;但 star 数仍是热度而非质量背书,跨平台兼容与真实产出质量待验证。
接下来看:video/motion skills 在 Claude Code/Codex/Cursor 外的兼容 / 第三方真实产出案例
Brown 大学教授公开揭露大规模 AI 考试作弊,称学术诚信告急
据 El País 报道(HN 125 分),Brown 大学一位教授公开谴责考试中出现大规模 AI 作弊,警告学术诚信面临风险。这是近一轮高校 AI 作弊争议中又一具体案例,与多所大学重新设计考核方式、引入 AI 检测的趋势并行。
把 AI 作弊从个案推向学术诚信结构性问题,反映教育评估体系正被 AI 倒逼重构。
对高校:考核方式向过程性/口试/AI-resilient 重构;对教育科技:AI 检测与防作弊需求上升;对学生:公平性焦虑加剧。
125 分 Brown AI 作弊 HN 热度
这是 AI 能力外溢到高利害现实场景的又一信号——当 LLM 能轻松通过考试,评估体系本身而非学生成了被考验的对象。Brown 案例的真正价值不在个案,而在它把一个结构性矛盾摆上台面:考核若继续以『可被 AI 完成的任务』为载体,就等于在奖励作弊;而转向口试/过程性评估又面临规模化成本。这与本期『AI 落地落差』叙事(Ford 返聘、软件工程反思)同源:AI 在哪些场景真正顶用、在哪些场景制造新问题,正成为各行业必须直面的分界线。
接下来看:Brown 后续处理与校方政策 / 其他高校是否跟进公开揭露
三星电子为员工部署 ChatGPT 和 Codex,大型制造企业 AI 工具规模化落地
据 OpenAI 官博(6-21),三星电子为员工部署 ChatGPT 和 Codex,成为大型制造企业规模化采用 AI 编程/办公工具的又一标志案例。继三星此前内部 AI 工具泄密争议后,此次转向与 OpenAI 的官方企业级部署。
标志 AI 工具从互联网公司向大型制造企业规模化扩散,企业级合规治理成采购关键。
对实体产业:AI 编程/办公工具规模化落地样板;对 OpenAI:企业版图扩向非科技巨头;对企业 IT:数据合规与权限治理需求上升。
三星这类传统制造巨头正式部署 ChatGPT/Codex,是 AI 工具从互联网公司向实体产业扩散的关键信号——也意味着企业级数据合规、权限治理成为采购决定因素(三星早年正是因内部 AI 泄密禁用过生成式 AI)。它和本期制造业 n8n+PLC 落地、Ford 质检落差放在一起看,呈现实体产业 AI 化的两面:一边是办公/编程工具规模化铺开,一边是核心生产环节 AI 仍需人类兜底。对 OpenAI,三星是其企业版图向非科技大客户扩张的弹药。
长文反思:AI 时代的软件工程,哪些被改变、哪些没有
一篇 HN 80 分长文《Reflections on software engineering in the age of AI》系统反思 AI 对软件工程的实际影响,讨论哪些实践被真正改变、哪些被高估,引发从业者讨论。
为 coding agent 乐观叙事提供冷静对冲,推动从业者区分 AI 的能力扩张与本质改变。
对工程团队:避免盲目 agent 化,保留人类判断权重;对工具厂商:理解 AI 的真实边界有助产品定位与预期管理。
在 coding agent 单边乐观叙事(65% 代码由 AI 生成、self-improving loop 普及)密集出现的一周,这类冷静长文是必要的对冲。它的价值不在给出结论,而在强迫从业者区分『AI 能做的』与『AI 改变了本质的』——前者正在快速扩张,后者往往被高估。把它和 Ford 返聘、Brown 作弊并看,一条暗线浮现:AI 的真实落地是高度场景依赖的,在质检、考核、复杂工程判断等场景,人类经验权重正在被重新发现而非淘汰。
Karpathy 的 CLAUDE.md 登 GitHub 趋势榜,号称把 AI 编码准确率 65%→94%
据 @anyelimarillo(218 赞),Karpathy 的 CLAUDE.md 登 GitHub 趋势榜 #1,号称超 22 万 star、仅 65 行,把 AI 编码准确率从 65% 提到 94%。四条规则:编码前先思考(暴露假设/不确定就问/绝不猜测)、简单优先(最少代码/不要没人要的抽象)、外科手术式改动(不动无关代码/每行可追溯需求)、目标导向执行(模糊指令转可验证成功标准)。
规则本身有工程价值,但 star 与准确率数字需重度核实,是 AI 传播中数字被放大的典型样本。
对开发者:四条规则可即用以约束 agent 行为;对舆论:提醒对 viral AI 数字保持核实习惯。
65%→94% Karpathy CLAUDE.md 准确率提升(号称)
这四条规则本身是扎实的工程纪律(本质是『想清楚再写、改动最小化、结果可验证』),但围绕它的两个数字需要打大折扣:『22 万 star』对一个 65 行配置文件几乎肯定是被误传或夸大——更可能是某仓库总 star 或榜单排名被张冠李戴;『65%→94%』没有公开评测口径,无法证伪也无从复现。真正可带走的是规则本身:在 self-improving loop 和 coding agent 普及的当下,把人类工程纪律编码进 agent 的 context 文件,与本期 loop engineering、skills as dotfiles 是同一潮流的两面——agent 行为质量越来越取决于你给它配的规则与上下文,而非模型本身。
接下来看:22 万 star 与 65%→94% 的真实出处与口径 / 四条规则在真实项目的效果是否可复现
Firecrawl 开源 Open Lovable:丢网站链接秒生成还原版 React 应用
Firecrawl 团队开源 Open Lovable(GitHub 24k+★,推文 723 赞),丢入想复刻的网站链接几秒生成高度还原的 React 版本,布局/样式/交互贴近原站。支持多模型(OpenAI/Anthropic/Gemini/Grok)切换、基于 Firecrawl 抓取页面结构、本地调试部署、E2B 沙盒,MIT 协议。
网站→React 代码生成品类开源化,降低前端复刻/原型门槛,是 coding agent 向前端生产侧的延伸。
对前端开发者:快速原型/迁移工具;对闭源竞品(Lovable/Bolt):开源版挤压定价空间;对 Firecrawl:开源引流反哺其抓取 API。
24k+★ Firecrawl Open Lovable 星标
这是『网站→可用前端代码』品类开源化的标志:此前 Lovable/Bolt 等闭源产品已验证需求,Open Lovable 把它做成可自托管、可换模型的 MIT 开源版,降低复刻/二次开发门槛。真正价值不在『克隆』本身,而在把 Firecrawl 的结构化抓取与多模型代码生成串成一条本地可控的流水线——对需要快速搭原型或迁移前端的团队是实用工具。但『高度还原』在复杂交互/动态站点上仍有限度,24k star 是热度而非对所有站点都成立。
接下来看:复杂动态站点的还原质量 / 社区二次开发与模型适配
实操方案:n8n+Modbus 接 PLC 做设备告警,Dify 知识库做故障 RAG
据 @better_christal(212 赞),一套制造业 AI 落地方案:n8n 装 Modbus 节点接 PLC 设备读温度/压力/振动→阈值告警→飞书机器人推送;再加 Dify 知识库做故障编码→处理建议 RAG;打包 docker-compose 私有化部署。报价 5-10 万/项目 + 1000 元/月维护。
给出制造业 AI 落地的可复制开源配方,揭示瓶颈在 OT/IT 打通的人才而非模型。
对集成商:可复制的私有化部署方案;对制造业:低门槛设备告警+故障 RAG;反映实体产业 AI 客单价低、定制化高的现实。
5-10 万/项目 + 1000 元/月维护 制造业 AI 落地报价
这是 AI 在制造业『非红海』落地的具体配方,价值在于把开源低代码(n8n)+ 工业协议(Modbus)+ RAG(Dify)拼成一条可私有部署、报价清晰的链路。博主的核心判断有道理:老板不会装 n8n,会装就赢一半——制造业 AI 的瓶颈不在模型,而在能把 OT(PLC/Modbus)与 IT(AI/RAG)打通并交付的人。但 5-10 万/项目的报价也暴露了这类落地的天花板:客单价低、高度定制、难标准化,更适合集成商而非平台型生意。
接下来看:方案在不同产线的可复制性 / n8n/Dify 在工业场景的稳定性
案例:20 美元 Claude 月入 $24,542,AI 定制内容挂 Fanvue 卖会员
据 @billtheinvestor(65 赞),一个 AI 变现案例:20 美元买通 Claude,月入 $24,542,用 AI 分析男性偏好定制内容挂 Fanvue 卖 $9.99 会员,从建模到变现闭环只需一人。博主疑问:粉丝粘性会不会崩,这种零成本创业能否复制。
AI 单人闭环变现的极端样本,示范内容边际成本归零后细分订阅的可行性,但数字未审计。
对个体创业者:AI 降低内容生意启动门槛;对平台:AI 生成内容政策压力上升;反映零壁垒生意的脆弱性。
$24,542/月 AI 变现月入(自称)
撇开内容伦理,这个案例是 AI 时代『单人闭环生意』的极端样本:一人完成建模→定制→变现,启动成本近零撬动付费订阅。真实意义不在收入数字(单例、未经审计、可能高报),而在示范了 AI 把内容生产边际成本压到接近零后,细分付费订阅成为可单人运营的生意形态。但博主自己的疑问点到了命门:零门槛也意味着零壁垒,粉丝粘性与平台政策是两个随时可能崩塌的变量——这类生意的脆弱性远高于它的利润率。
接下来看:收入数字是否可验证 / 平台对 AI 生成内容的政策走向
社区自建免费 GLM-5.2 API 服务:免注册、每 Key 有效期 1 小时
据 @mcwangcn(60 赞),作者自建免费 GLM-5.2 API 服务,无需注册登录,可用于 coding agent;所有 token 费用自掏腰包,为防浪费每个 API Key 有效期 1 小时,过期重新申请。
折射开源权重模型社区托管趋势,印证 GLM-5.2 在 coding agent 场景的可用性。
对开发者:零门槛试用 GLM-5.2;对开源生态:社区托管成为分发补充;可持续性受个人补贴限制。
这是 GLM-5.2 开源后社区自建免费 API 托管的缩影:开源权重模型让个人也能搭公共服务分发,进一步压低用前沿开源模型的门槛。1 小时 Key 有效期是典型的『防白嫖』设计,折射出这类社区服务可持续性的核心矛盾——靠个人补贴 token 成本难以规模化。信号意义大于实用意义:印证 GLM-5.2 在 coding agent 场景的可用性已被社区认可,也预示开源模型的分发将更多依赖社区托管而非官方 API。
开源开盒工具 ALIENS EYE:ML 模型+25 特征扫 840+ 平台
据 @NFTCPS(1241 赞),开源开盒工具 ALIENS EYE 输入用户名异步几秒扫完 840+ 平台扒出账号分布,非靠 HTTP 状态码瞎猜,而用训练好的 ML 模型加 25 个特征判断,结果分 Found/Maybe/Not Found 三档带置信度,支持 Tor/代理与 JSON/CSV/HTML/Markdown 导出。
开源 OSINT 工具把跨平台身份关联门槛压到接近零,隐私侧值得警惕。
对普通用户:跨平台复用用户名风险上升;对平台:账号关联防御需升级;ML+置信度的 OSINT 方法论可迁移到正当用途。
840+ 平台 ALIENS EYE 覆盖平台数
这条技术上是个像样的 OSINT 工具(用 ML+多特征替代状态码瞎猜,带置信度分档,工程上比传统开盒脚本严谨),但它真正的早报价值在于敲响隐私侧警钟:当开源工具能把跨 840+ 平台的用户名关联做到几秒出结果、还支持 Tor 隐藏自身,『同一用户名跨平台身份串联』的门槛被压到接近零。对普通用户这是提醒——跨平台复用用户名等于主动交出身份图谱;对平台,这意味着账号发现与关联防御需要新思路。作者提醒『别拿去干坏事』,但工具开源本身不可撤回。
接下来看:工具滥用与平台防御响应 / ML OSINT 方法论的正当应用迁移
推特上在讨论什么
精选 10 条从业者发言,点"原帖"看一手出处
Anthropic 发布 Claude Tag(beta,面向 Claude Team/Enterprise),团队可在 Slack 频道 @ Claude 派活,Claude 后台拆解执行后在线程回复;管理员预先配置可访问的频道、工具、数据源和代码库。Karpathy 称其为 LLM 交互的第三次重大重新设计:第一代是访问的网站(ChatGPT 网页版),第二代是下载的 App(Codex/Claude 桌面端/Cursor),第三代是持久存在、异步运行、拥有组织级工具与上下文、直接嵌入工作流的实体。Gergely Orosz 澄清重点不在 Slack,而在云端 AI 接入公司全部内部系统后 just works。真正受益的是新员工、非工程师、改动陌生代码库的开发者。
GergelyOrosz:我和 Anthropic 内部几个人聊过后开始理解 Karpathy 在说什么(以及很多人误解了什么):重点不是 Slack,而是一个接入公司所有内部系统、能 just works 的云端 AI——这才是突破。原帖 ↗
Anthropic Managed Agents Lead 在 40 分钟播客中透露:Anthropic 内部 >90% 的工程师在用 self-improving loops 构建,4-6 个月内将达 100%;其 agentic loop 可运行数小时而不花掉数百美元。该 lead 讲解如何从零搭建有效 agent,给出公式 Agent→harness→loops→memory=现代 agent。博主称这一条视频能顶 10 门付费 vibe-coding 课程。
0xCodez:引用自身早前帖,内含该 40 分钟播客链接。原帖 ↗
"我不再 prompt 我的 agent,我写 prompt 它的 loop。" Loop engineering 是本月热词,但关键问题在于:能整夜运行的 loop 不等于会学习的 loop——经验能否跨周期存活,完全取决于它落在哪。该团队发布一篇综述,研究经验时代中已部署 agent 如何把交互轨迹转化为持久能力,从自我进化到元进化;并延续此前你不是选模型而是选 benchmark(塑造进化方向的奖励)的论点。结论:loop 的好坏取决于其底层基础设施。
原帖 ↗Loop Engineering 应用场景:把写作任务本身设计成一个 Loop,而非直接让 AI 写一篇关于 X 的文章(容易得到概念完整但空洞的结果)。写作 Loop 六步:Define 锁定读者与结果→Research 接入外部素材(网页/Obsidian 笔记/项目文件)→Outline 先搭大纲不直接写正文→Draft 第一版只求主线完整→QA Loop 检查钩子、案例落地、AI 腔、空泛概念并转化为下轮修改规则→Polish 改标题/开头/节奏/金句。核心观点:好文章很少一次生成,是在多轮检查修正里长出来的。
369Serena:Loop Engineering 实操工作流,以寻找英文金融 KOL 为例,结构为 Define 锁硬条件→Search→Filter 硬过滤→Content Audit 审近期作品→QA Loop 查脏数据→Feedback 修规则→Stop 达目标数量跳出→Deliver 输出 Excel。原帖 ↗
Sebastian Raschka 发文介绍用开源权重模型搭建 100% 本地运行的 coding agent:把本地 LLM 接入本地 coding harness(可用 Claude Code 或 Codex)。文章含一份选型检查清单:长上下文下检查 RAM 占用判断模型是否适合实际工作、测量 prefill 与 decoding tok/s 看速度是否烦人、确认模型理论上的 tool-calling 能力、评估模型在 coding harness 中能否解决较难任务。作者称今年更好的 LLM 与更好的 harness 让本地模型已能胜任严肃工作,这套入门 kit 保持灵活,可随时切换更新的模型或临时调用云端模型。
原帖 ↗Firecrawl 团队开源 Open Lovable,GitHub 已 24k+ Star。零门槛用法:丢入想复刻的网站链接,几秒生成高度还原的 React 版本,布局/样式/交互贴近原站,适合二次开发。亮点:一键克隆任意网站为 React 应用(复杂页面也能扛);可接 OpenAI/Anthropic/Gemini/Grok 多模型按需切换;基于 Firecrawl 抓取页面结构使还原更稳;支持本地调试部署、生成即预览;集成 E2B 沙盒更安全。MIT 协议完全开源,本地配好 API key 即可开跑。
原帖 ↗本周 GitHub 增长最快的 10 个仓库:1.OpenMontage(+17.2K) 首个开源 agentic 视频生产系统,12 pipelines/52 tools/500+ agent skills;2.skills(+11.1K) Real Engineers 的 .claude skills 合集;3.codebase-memory-mcp(+7.6K) 高性能代码情报 MCP,把代码库索引成持久知识图谱,158 语言、亚毫秒查询、省 99% token;4.Agent-Reach(+7.2K) 给 agent 装眼睛读 Twitter/Reddit/YouTube/GitHub/B站/小红书,零 API 费;5.daily_stock_analysis(+6.9K) LLM 驱动多市场股票分析、零成本定时运行;6.Anthropic-Cybersecurity-Skills(+5.1K) 817 个结构化网安 skill,映射 MITRE ATT&CK 等 6 框架。本周主题:agent skill 包与 context 文件正成为新的开发者 dotfiles。
原帖 ↗投行 Jefferies 警告:2026 Q3 内存价格将暴涨 50%,Q4 再涨 40%,2028 年前难缓解。内存涨价连苹果都扛不住,英伟达和 AMD 能抗多久存疑,最终两个结果:一是倒逼云厂商减缓 AI 数据中心建设、资本开支下降;二是技术替代,如 MRVL 这类硬件加速方案曲线救国。未来 64G/128G 大内存电脑可能成理财产品。
Rocky_Bitcoin:投行 Jefferies 警告:2026 Q3 内存价格将暴涨 50%,Q4 再涨 40%,2028 年前难缓解。内存涨价连苹果都扛不住,英伟达和 AMD 能抗多久存疑,最终两个结果:一是倒逼云厂商减缓 AI 数据中心建设、资本开支下降;二是技术替代,如 MRVL 这类硬件加速方案。原帖 ↗
开源开盒工具 ALIENS EYE:输入用户名,异步几秒扫完 840+ 平台一次性扒出账号分布。非靠 HTTP 状态码瞎猜,而是用训练好的 ML 模型加 25 个特征判断,结果分 Found/Maybe/Not Found 三档并带置信度。支持走 Tor 和代理隐藏自身,结果可导出 JSON/CSV/HTML/Markdown。作者提醒查人挺好使,别拿去干坏事。
原帖 ↗制造业比互联网好赚钱的落地方案:n8n 装 Modbus 节点接 PLC 设备,读温度/压力/振动→阈值告警→飞书机器人推送;再加 Dify 知识库做故障编码→处理建议的 RAG;打包成 docker-compose 私有化部署。报价 5-10 万/项目 + 1000 元/月维护。核心判断:老板不会装 n8n,会装就赢一半,互联网红海之外制造业是蓝海。
原帖 ↗