网络巨擘争霸GPT-4闪耀榜首330亿参数小羊驼开源之星

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受瞩目的UC伯克利LLM排位赛再次更新！GPT-4坚守榜首，GPT-3.5紧随其后，自家发布的330亿参数Vicuna则冲至开源模型之首。UC伯克利主导的「LLM排位赛」迎来首次重磅更新！

这次，团队不仅在排行榜中加入了更多模型（目前已达到28个），而且还增加了2个全新的评价标准。

与此同时，团队还发布了更新的Vicuna-v1.3系列模型，参数量为70亿、130亿和330亿，并提供了权重公开。

增强版LLM排行榜

GPT-3.5、Claude-v1和Claude-instant-v1这三个模型之间实属难分高下。不仅在MT-bench得分上竞争激烈，而且在诸如Elo和MMLU得分上也有反超之势。

相比之下，一众开源模型却显著落后，即便是作为开源第一的Vicuna-33B也是如此。

然而，也有例外，如谷歌PaLM2则未能超越其他开源模型。

全新评价机制：MT-bench

虽然现在已经有许多评估大语言模式性能的基准测试，但它们评估人类偏好的不足。

例如，以封闭式问题进行测试并提供简洁输出作为评价，这种方式存在局限性。此外，还有一项系统研究揭示了LLM评判者的可靠性问题显示了一致性水平超过80%与专家组或众包组的人类裁判一致性相当，可作为人类偏好的扩展解释值。

但当LLM作评时仍有潜在限制：

位置偏差，即可能偏向第一个答案；

冗长偏差，即可能偏好更长回答而忽视质量；

自我增强偏差，即可能倾向于自己的回答；

推理能力有限，对数学推理问题打分存在缺陷。

不同LLM评判者存在立场偏见，其中“一致性”指的是评判者顺序交换时给出的一致结果百分比。为了缓解这些限制，可以使用少样本评判、思维链评判、基于参考的评判及微调等方法。

结果分析

MT-Bench有效地区分不同能力间距

“排位赛”对28个模型进行全面考察，显示不同的能力间距明显，而Chatbot Arena Elo得分高度相关。特别是MT-Bench引入，让GPT-4与GPT-3.5/Claude以及专有与开源之间性能差异更加鲜明。

多轮对话能力比较6个模型8种技能：写作、角色扮演、推理、数学编码信息提取自然科学人文科学

多轮对话分析表明开放型模块在第一、二轮表现显著下降，而强大的私人模块保持一贯性。此外，更宽松条件下的模块也存在性能区别，如基于LLaMA设计或调整后的Open-LLaMA等。

对于多轮对话中的MT-bench得分满10分

另外，用做判断器的特点是可解释性的优势，它们能够提供详细逻辑清晰反馈。图例展示了GPT-4给出的判断过程及其来自alpaca-13b和gpt-3.5-turbo答案，为指导人类决策提供帮助。

总结来说，MT-Bench可以有效地区定聊天机器人的性能。但需谨慎使用，因为它仍然会出错尤其是在数学/推理题目打完时。在接下来，我们计划发布对话数据供广泛社区研究，并建立更丰富的问题集——即将到来的Chatbot Arena MT-bench—1K项目。

标签：人工智能系统、仿真女性机器人、最便宜的智能手机、生活中人工智能的应用、人工智能最新进展