2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,自家新发布的330亿参数Vicuna则稳坐开源之冠。UC伯克利主导的「LLM排位赛」迎来首次重磅更新!
这次,团队不仅在排行榜中加入了更多模型(目前已达到28个),而且还增加了2个全新的评价标准。
与此同时,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,且权重已公开。
增强版LLM排行榜
不难看出,GPT-3.5、Claude-v1和Claude-instant-v1这三个模型之间实际难分伯仲。不仅在MT-bench得分上咬得很紧,而且在诸如Elo和MMLU得分上还有后者还有反超。
与这些专有模型相比,开源模型们则有着明显的差距,即便是作为开源第一的Vicuna-33B也是如此。
当然,有些例外存在,比如谷歌的PaLM2,就落后于一众开源模型。
全新评价机制:MT-bench
虽然现在已经有了不少用来评估大语言模型(LLM)性能的大型基准测试,比如MMLU、HellaSwag和HumanEval等,
但是在评估LLM的人类偏好时,这些基准测试存在着明显不足。
举个例子,对传统基准测试通常是在封闭式问题(例如多项选择题)上对LLM进行测试,并提供一些简洁输出作为评价。
结果显示,与人类裁判组相比,一致性高达80%以上,这种一致性水平,可以与两个人类评判者之间的一致性相媲美,
并且基于GPT-4单独答案评分也能有效地对排名进行,并与人类偏好匹配良好,
因此,如果使用得当,可扩展可解释近似值可用。但依然会遇到潜在限制:
位置偏差、冗长偏差、高估自身能力以及推理能力有限。
不同LLM评判者的立场偏见
其中“一致性”指的是交换顺序后的结果百分比
对于这些限制,他们探讨如何利用少样本评判、思维链评判参考或微调以缓解。
结果分析
MT-Bench有效地区分不同性能水平的LLMs
团队针对28个模型全面考察,
显示各能级间巨大差距,与Chatbot Arena Elo相关度极高,
特别是引入MT-Bench更清晰地展示:
GPT-4vs GPT-3.5/Claude及开/专异化表露无疑。
为了深入了解间隙他们选取几个代表性的挑战它们每项表现,
发现与GPT-3.5/Claude较之编码推理更胜,而Vicuna13B特定几项落后于前列
这表明开放系统仍需改进空间待补充
比较6个模式8种技能:写作角色扮演推理数学编码信息提取自然科学人文科学
多轮对话能力分析
接下来他们分析所选模式在多轮聊天中的表现.
开放系统第一、二轮间显著下降,如Vicuna7b, WizardLM13b; 而强大的私营机器人保持稳定.
另外基于LaMA调整过宽松类型,如MP7Falcon40OPLaMA)也存在性能差距.
在第一个第二轮聊天中各获得10满分点.
该系统提供透明解释:
下图展示了一款通过MT-bench的问题被判断,其中包括来自alpaca13b及gpt35turbo回答.
可以看到,对于自己给出的判断,GPT4详细全面逻辑清晰反馈.
研究认为这样的评价能够指导人们做出更智慧决策.
总结来说, MT-BENCH区别不同的chatbot效果;
然而,在应用时应谨慎,因为它可能犯错尤其是数学/推理打分时;
计划发布数据集:
计划发布Chatbot Arena 对话数据供研究社区广泛使用;
扩展问题集:
正在积极扩展问题集,将Chatbot Arena 高质量提示集成并利用自己的生成新问题建立更丰富数据集;
参考资料:
https://lmsys.org/blog/2023-06-22-leaderboard/