1 条相关内容
BINEVAL 提出将评估维度拆成原子级是非题、对每个输出独立作答再聚合为校准的多维分数,每个问题级判定可检查、能精确定位输出为何低分并作为改进 prompt 的信号;在 SummEval、Topical-Chat、QAGS 上匹配或超过 UniEval 和 G-Eval,免训练、事实一致性表现尤佳。