TAG

#评测

3 条相关内容

研究论文 2026-06-27

BINEVAL:把 LLM-as-judge 拆成原子级是非题,可定位低分原因

BINEVAL 提出将评估维度拆成原子级是非题、对每个输出独立作答再聚合为校准的多维分数,每个问题级判定可检查、能精确定位输出为何低分并作为改进 prompt 的信号;在 SummEval、Topical-Chat、QAGS 上匹配或超过 UniEval 和 G-Eval,免训练、事实一致性表现尤佳。

观点观察 2026-06-27

Agent Arena Token 效率:Fable 质量最高,GPT-5.5 最省,Grok 烧 token 倒退

Code Arena 母榜发布 Agent Arena Token 效率分析(模型在搜索/文件系统/终端工具下完成真实任务),Fable 质量最高(+14.1%),优于同 token 用量的 Opus 4.8 Thinking(+9.2%);三个 GPT-5.5 变体均在效率前沿之上(+6.2% 至 +8.6%)且用量更少;GLM-5.2 达 +5.1% 接近趋势线。Gemini-3.5 Flash 耗 token 最多却远低于前沿,Grok Build 0.1 烧 20K+ token 反而净负增长。

研究论文 2026-06-27

MoA 混合代理:NousResearch 称超闭源,论文发现'共败上限'

NousResearch 将 Hermes Agent 的 MoA(混合代理)预设作为虚拟模型开放,自称在即将发布的基准上比 Opus 4.8 高 8%、比 GPT-5.5 高 11%;同期 arXiv 论文《When Does Combining Language Models Help?》跨 67 个前沿模型发现路由/投票/MoA 存在"共败上限",组合收益受限于成员模型共同失败的模式。