2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,330亿参数Vicuna则稳坐开源之巅。UC伯克利主导的「LLM排位赛」迎来首次重磅更新!
这次,团队不仅在排行榜中加入了更多模型(目前已达到28个),而且还增加了2个全新的评价标准。
与此同时,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,且权重已公开。
增强版LLM排行榜
不难看出,GPT-3.5、Claude-v1和Claude-instant-v1这三个模型之间实际难分伯仲。不仅在MT-bench得分上咬得很紧,而且在诸如Elo和MMLU得分上还有后者还有反超。
和这些专有模型相比,开源模型们则有着明显的差距,即便是作为开源第一的Vicuna-33B也是如此。
当然,这一切都要归功于综合国力的提升,以及对大语言模型评估标准的一致性探索。
全新评价机制:MT-bench
虽然现在已经有了许多基准测试,比如MMLU、HellaSwag和HumanEval等,但传统基准测试存在不足,因为它们通常是在封闭式问题上进行测试,并提供简洁输出作为评价。
结果显示,与人类偏好一致性的高水平被证明可以有效地通过系统研究揭示,如论文「Judging LLM-as-a-judge」。这种一致性水平,可以媲美两个人类评判者的表现。
然而,当LLM作为评判者时,也存在一些潜在限制:
位置偏差,即可能偏向于第一个答案选择。
冗长偏差,即可能偏向更长回答,而忽略质量。
自我增强偏差,即可能偏向自己的回答。
推理能力有限,在数学推理问题打分时存在缺陷。
不同LLM评判者的立场偏见也值得注意,其中「一致性」指的是评判者在顺序交换时给出的相同结果百分比。为了缓解这些限制,我们探讨了少样本评判、思维链评判、基于参考的评判以及微调以减轻影响。
结果分析
MT-Bench有效地区分了性能差异
28个模型全面被测定,其成绩与Chatbot Arena Elo高相关度。在引入MT-Bench后,更清楚地展现出了GPT-4与GPT-3.5/Claude,以及开源与专有间性能差距。此外,我们选取几个代表性的LLM,并分析每种分类下的表现。这表明开源模式仍需改进空间。
比较6个模式8种能力:写作、角色扮演、推理数学编码提取自然科学人文科学
多轮对话能力也被分析,对于第一轮第二轮之间性能下降情况,对于强大的专属模式保持了一贯。另外基于Llama-Lmaa-Mpt-Falcon及调整后的Open-Lmaa也有显著性能落后的情况出现。对于每轮对话中的MT-bench满分10点,不同模式表现各异。
可解释性方面,用LLMs做判断带来了另一优势——它们能够提供清晰逻辑反馈,如下图展示:
总结来说,加深了解不同的聊天机器人区别是关键。但使用时应谨慎,因它仍然可能出错特别是在数学/推理问题打分时。未来计划包括发布Chatbot Arena数据集,以供广泛研究利用,并扩展问题集至更丰富版本—即将到来的MT-Bench-1K数据集。