#Claude Code
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
Anthropic 推 Claude Tag:把 Agent 搬进 Slack,自家产品团队 65% 代码已由它生成
Anthropic 发布 Claude Tag(6-23,本期为延续报道),团队在 Slack 里 @Claude 即可委派任务,Claude 作为常驻成员加入频道、连接工具/数据/代码库,运行于 Opus 4.8,对 Enterprise/Team beta 开放,并替换旧版『Claude in Slack』、给管理员 30 天迁移窗口。四大特性:multiplayer 多人接力、跨频道随时间学习、ambient 主动推送/跟进、异步自主推进数小时至数天。治理被做成一等公民:按频道配工具、记忆隔离身份、组织/频道双层 token 上限、全量操作日志。Anthropic 称这是『Claude Code 的演进』,其产品团队 65% 代码已由内部版生成,用途已扩展到追指标、处理工单、定位 bug——远超 Google(>30%)与微软(20-30%)公开数字。
EnterpriseClawBench:把 5291 条真实职场会话变成评测,给 Claude Code、Codex 直接打分
该基准从真实企业 agent 会话中提炼出 852 个可复现任务(含 120 题人工审核的 Lite 子集),用『硬规则 + 五维语义评判』双层打分,评测了 32 个 harness-模型组合(Claude Code、Codex、DeepAgents、Hermes、OpenClaw)。因含内部内容,数据不公开,公开的是构建与评测协议。最佳 Lite 成绩仅 0.663(Codex+GPT-5.5),全集 DeepAgents 上 GPT-5.5=0.766、Sonnet 4.6=0.749、Haiku 4.5=0.632。
它补上了 agent 评测最稀缺的一环:真实办公场景而非合成任务。两个判断值得划重点:其一,harness 影响巨大——同一个 Sonnet 4.6 在 Hermes 下掉到 0.458,在其他 harness 下 0.62–0.64,说明『模型 + 框架』要一起评,单看模型分会误导选型;其二,文本评判与人类对齐尚可(MAE 0.134),但视觉产物评判很弱(MAE 0.303、秩相关为负),意味着对图表/界面类交付物的自动评分还不可信。