当前位置: 首页 - 智能 - 芯片技术迈新步伐LLM排行榜首次更新GPT-4闪耀榜首330亿参数小羊驼开源之星

芯片技术迈新步伐LLM排行榜首次更新GPT-4闪耀榜首330亿参数小羊驼开源之星

2025-02-28 智能 0

编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,自家新发布的330亿参数Vicuna则稳坐开源之冠。UC伯克利主导的「LLM排位赛」迎来首次重磅更新!

这次,团队不仅在排行榜中加入了更多模型(目前已达到28个),而且还增加了2个全新的评价标准。

与此同时,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,且权重已公开。

增强版LLM排行榜

不难看出,GPT-3.5、Claude-v1和Claude-instant-v1这三个模型之间实际难分伯仲。不仅在MT-bench得分上咬得很紧,而且在诸如Elo和MMLU得分上还有后者还有反超。

与这些专有模型相比,开源模型们则有着明显的差距,即便是作为开源第一的Vicuna-33B也是如此。

当然,有些例外存在,比如谷歌的PaLM2,就落后于一众开源模型。

全新评价机制:MT-bench

虽然现在已经有了不少用来评估大语言模型(LLM)性能的大型基准测试,比如MMLU、HellaSwag和HumanEval等,

但是在评估LLM的人类偏好时,这些基准测试存在着明显不足。

举个例子,对传统基准测试通常是在封闭式问题(例如多项选择题)上对LLM进行测试,并提供一些简洁输出作为评价。

结果显示,与人类裁判组相比,一致性高达80%以上,这种一致性水平,可以与两个人类评判者之间的一致性相媲美,

并且基于GPT-4单独答案评分也能有效地对排名进行,并与人类偏好匹配良好,

因此,如果使用得当,可扩展可解释近似值可用。但依然会遇到潜在限制:

位置偏差、冗长偏差、高估自身能力以及推理能力有限。

不同LLM评判者的立场偏见

其中“一致性”指的是交换顺序后的结果百分比

对于这些限制,他们探讨如何利用少样本评判、思维链评判参考或微调以缓解。

结果分析

MT-Bench有效地区分不同性能水平的LLMs

团队针对28个模型全面考察,

显示各能级间巨大差距,与Chatbot Arena Elo相关度极高,

特别是引入MT-Bench更清晰地展示:

GPT-4vs GPT-3.5/Claude及开/专异化表露无疑。

为了深入了解间隙他们选取几个代表性的挑战它们每项表现,

发现与GPT-3.5/Claude较之编码推理更胜,而Vicuna13B特定几项落后于前列

这表明开放系统仍需改进空间待补充

比较6个模式8种技能:写作角色扮演推理数学编码信息提取自然科学人文科学

多轮对话能力分析

接下来他们分析所选模式在多轮聊天中的表现.

开放系统第一、二轮间显著下降,如Vicuna7b, WizardLM13b; 而强大的私营机器人保持稳定.

另外基于LaMA调整过宽松类型,如MP7Falcon40OPLaMA)也存在性能差距.

在第一个第二轮聊天中各获得10满分点.

该系统提供透明解释:

下图展示了一款通过MT-bench的问题被判断,其中包括来自alpaca13b及gpt35turbo回答.

可以看到,对于自己给出的判断,GPT4详细全面逻辑清晰反馈.

研究认为这样的评价能够指导人们做出更智慧决策.

总结来说, MT-BENCH区别不同的chatbot效果;

然而,在应用时应谨慎,因为它可能犯错尤其是数学/推理打分时;

计划发布数据集:

计划发布Chatbot Arena 对话数据供研究社区广泛使用;

扩展问题集:

正在积极扩展问题集,将Chatbot Arena 高质量提示集成并利用自己的生成新问题建立更丰富数据集;

参考资料:

https://lmsys.org/blog/2023-06-22-leaderboard/

标签: 人工智能在各个领域的应用下载一个智能遥控器手机电视万能遥控器智能家具生活中的智能设备有哪些