2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受瞩目的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,自家发布的330亿参数Vicuna则冲至开源模型之首。UC伯克利主导的「LLM排位赛」迎来首次重磅更新!
这次,团队不仅在排行榜中加入了更多模型(目前已达到28个),而且还增加了2个全新的评价标准。
与此同时,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,并提供了权重公开。
增强版LLM排行榜
GPT-3.5、Claude-v1和Claude-instant-v1这三个模型之间实属难分高下。不仅在MT-bench得分上竞争激烈,而且在诸如Elo和MMLU得分上也有反超之势。
相比之下,一众开源模型却显著落后,即便是作为开源第一的Vicuna-33B也是如此。
然而,也有例外,如谷歌PaLM2则未能超越其他开源模型。
全新评价机制:MT-bench
虽然现在已经有许多评估大语言模式性能的基准测试,但它们评估人类偏好的不足。
例如,以封闭式问题进行测试并提供简洁输出作为评价,这种方式存在局限性。此外,还有一项系统研究揭示了LLM评判者的可靠性问题显示了一致性水平超过80%与专家组或众包组的人类裁判一致性相当,可作为人类偏好的扩展解释值。
但当LLM作评时仍有潜在限制:
位置偏差,即可能偏向第一个答案;
冗长偏差,即可能偏好更长回答而忽视质量;
自我增强偏差,即可能倾向于自己的回答;
推理能力有限,对数学推理问题打分存在缺陷。
不同LLM评判者存在立场偏见,其中“一致性”指的是评判者顺序交换时给出的一致结果百分比。为了缓解这些限制,可以使用少样本评判、思维链评判、基于参考的评判及微调等方法。
结果分析
MT-Bench有效地区分不同能力间距
“排位赛”对28个模型进行全面考察,显示不同的能力间距明显,而Chatbot Arena Elo得分高度相关。特别是MT-Bench引入,让GPT-4与GPT-3.5/Claude以及专有与开源之间性能差异更加鲜明。
多轮对话能力比较6个模型8种技能:写作、角色扮演、推理、数学编码信息提取自然科学人文科学
多轮对话分析表明开放型模块在第一、二轮表现显著下降,而强大的私人模块保持一贯性。此外,更宽松条件下的模块也存在性能区别,如基于LLaMA设计或调整后的Open-LLaMA等。
对于多轮对话中的MT-bench得分满10分
另外,用做判断器的特点是可解释性的优势,它们能够提供详细逻辑清晰反馈。图例展示了GPT-4给出的判断过程及其来自alpaca-13b和gpt-3.5-turbo答案,为指导人类决策提供帮助。
总结来说,MT-Bench可以有效地区定聊天机器人的性能。但需谨慎使用,因为它仍然会出错尤其是在数学/推理题目打完时。在接下来,我们计划发布对话数据供广泛社区研究,并建立更丰富的问题集——即将到来的Chatbot Arena MT-bench—1K项目。