TAG

#智能体

4 条相关内容

观点观察 2026-06-27

Agent Arena Token 效率:Fable 质量最高,GPT-5.5 最省,Grok 烧 token 倒退

Code Arena 母榜发布 Agent Arena Token 效率分析(模型在搜索/文件系统/终端工具下完成真实任务),Fable 质量最高(+14.1%),优于同 token 用量的 Opus 4.8 Thinking(+9.2%);三个 GPT-5.5 变体均在效率前沿之上(+6.2% 至 +8.6%)且用量更少;GLM-5.2 达 +5.1% 接近趋势线。Gemini-3.5 Flash 耗 token 最多却远低于前沿,Grok Build 0.1 烧 20K+ token 反而净负增长。

行业动态 2026-06-27

OpenRouter:四款 open-weight 模型已驱动真实 agentic 流水线

OpenRouter Insights 新博文指出已有四款 open-weight 模型跨过门槛、正在驱动真实 agentic 流水线,分析了 6 月企业为何选择它们。

观点观察 2026-06-27 深度 →

智能体渗透工作:OpenAI Codex 99.8% + Anthropic 经济影响 + 字节 TRAE 三方数据

OpenAI 内部报告,2025 年 8 月至 2026 年 6 月各部门输出 token 中 Codex 占比从不足 10% 升至 99.8%,80.6% 员工曾发起等效人类超 30 分钟的请求、25.6% 超 8 小时,非开发者用量个体 +137 倍/组织 +189 倍,法务、财务、招聘 4 月前后跨过使用过半拐点。Anthropic 经济影响研究(逐小时采样)显示近半受访者预期 12 个月内职责显著变化,不到 10% 认为自己会失业、但超三分之一估计初级同事失业概率高于 60%。字节洪定坤分享 TRAE 团队过去半年超 90% 代码由 AI 生成,但人均需求吞吐仅提升约 1.6 倍——引入 Harness(上下文工程/架构约束/团队知识沉淀)后可交付性从 40-60 分升至约 80 分。

行业动态 2026-06-25

「智能体如何重塑工作」报告发布

系统梳理智能体对企业工作流的改造路径,代表另一条「替你做事」的路线。