当前位置: 首页 - 智能 - 第三次科技大革命LLM霸榜潮清华逆袭登顶

第三次科技大革命LLM霸榜潮清华逆袭登顶

2025-02-24 智能 0

第三次科技革命:LLM大模型霸榜,清华逆袭登顶!

自GPT爆火之后,当下流行的开源大型语言模型越来越多。LMSYS组织(UC伯克利博士Lianmin Zheng牵头举办)建立了Chatbot Arena基准平台,通过匿名随机竞争来评估他们,并发布Elo等级排行榜。排行榜至今仍在定期更新,期待更多的用户贡献模型,进行投票,开发者们也可以参与进来!

开源大模型太多?LMSYS Org直接建立了一个竞技场,以众包方式让它们匿名、随机地进行对抗,从而形成排行榜。并邀请整个社区加入这项工作,贡献新模型,让所有人都能参与提问和投票来评估它们。

在这个竞技场中,大模型们直接进行比拼,就像图1中展示的一样,模型B完美说出正确答案,而模型A却是牛头不对马嘴,无奈地遗憾出局。

除了战斗计数,我们还描绘了语言分布显示,大多数用户提示都是英语。这表明英语作为国际交流的主要工具,在这个领域占据主导地位。

玩家的评分可以在每场战斗后线性更新。假设玩家A(具有Rating Ra)被期望得分Ea,但实际得分Sa。更新玩家评分的公式是:

使用收集到的数据,我们计算了该笔记本中每个模型的Elo评分,并将主要结果放在表1中。欢迎大家自己尝试使用投票数据来计算这些高超的大师们的实力。

当然,这些数据只包含投票结果,没有对话历史,因为公开对话历史会引起隐私和病毒等担忧。但即便如此,这样的系统还是能够很好地帮助我们理解各个大型语言模式间相互之间谁更强大的关系。

双赢率作为校准基础,还展示了锦标赛中每个模型成对获胜率(如图4),以及使用Elo评价算法预测成对获胜率(如图5)。通过比较这些数据,我们发现Elo评价算法可以相对较好地预测未来比赛中的胜负情况。

未来的计划

添加更多闭源模式,如ChatGPT-3.5现在已经可用。

添加更多开源模式。

发布定期更新的排行榜,每月一次。

实施更好的采样算法、锦标赛机制和服务系统以支持更多模块。

提供不同任务类型细粒度排名。这一切都需要我们的共同努力,所以希望所有用户能进行反馈,以使竞技场变得更加完善和精彩。

最后,我想感谢所有为这一项目做出贡献的人士,以及那些致力于提高这一技术界限的人。在这里,您也可以访问 https://arena.lmsys.org 为您认为最优秀的大型语言模式投一票。如果您想要查看特定模式,可以按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)添加它。此外,不要忘记关注演示地址:https: //arena.lmsys.org 排行榜:https: //leaderboard.lmsys.org GitHub仓库:https://github.com/lm-sys/FastChat Colab笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 下载小布智能语音机器人读研人工智能哪个学校好智能家居市场分析及发展趋势智能制造系统有哪些人工智能的定义是什么