TAG
#Claude
2 条相关内容
研究论文 2026-06-26 深度 →
MirrorCode 基准:Opus 4.7 仅凭运行行为重写软件,14 小时抵人类数周
Epoch AI 等机构的 MirrorCode 基准要求 AI 仅凭程序可执行行为(可运行但无源码)重写整套软件,覆盖 25 个目标程序、6 种语言(Python/C/Rust/Go/OCaml/Ada),用含隐藏测试的端到端测试判定一致性。最强模型 Claude Opus 4.7 全基准 56%(8 个月前模型约 30%);典型案例重写 1.6 万行 Go 生物信息学工具包 gotree(40+ 命令),用 14 小时通过 2000/2001 测试(99.95%)、花费 $251,人类估计需 2-17 周,单个大任务一次尝试可耗 $2600/19 天。Mollick 借此称"聊天机器人时代已结束"。
产品上新 2026-06-25 深度 →
Claude Tag:AI 交互从「目的地」迁向「内嵌」
交互范式位置迁移背后的产品逻辑,以及「内嵌」成败的真正指标。