TAG

#LLM-as-judge

1 条相关内容

研究论文 2026-06-27

BINEVAL:把 LLM-as-judge 拆成原子级是非题,可定位低分原因

BINEVAL 提出将评估维度拆成原子级是非题、对每个输出独立作答再聚合为校准的多维分数,每个问题级判定可检查、能精确定位输出为何低分并作为改进 prompt 的信号;在 SummEval、Topical-Chat、QAGS 上匹配或超过 UniEval 和 G-Eval,免训练、事实一致性表现尤佳。