当前位置: 首页 - 智能 - 科学松鼠会大模型决战LLM排行榜揭晓清华惊人第五名

科学松鼠会大模型决战LLM排行榜揭晓清华惊人第五名

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)为了评估这些模型的性能,创立了Chatbot Arena竞技场。这是一个匿名、随机的对抗平台,让模型们在这里较量,形成Elo等级排行榜。社区成员不仅可以贡献新模型,还能参与投票来评估它们。

就在前几天,大型语言模型们在这个竞技场上展现出了他们的实力,就像图1中的比赛一样。每当一个答案正确或者错误,都会直接影响到它的排名。在这次战斗中,我们看到了许多惊人的结果,其中一些甚至让人难以置信。

除了实际的战斗成绩外,这个平台还提供了关于用户偏好的有趣数据,如图3所示,它显示了所有数据中最常见的是英语。大多数提示都是用英语进行的,这反映出英语作为国际交流工具的地位和影响力。

玩家的评分是通过线性更新公式来计算,每一场战斗都可能改变一个玩家的命运。例如,如果玩家A被期望得分Ea,但实际得分Sa,那么他的评分就会根据这个公式进行更新。

使用收集到的数据,计算了该笔记本中各个模型的Elo评分,并将主要结果放在表1中。如果你也想尝试自己计算,你完全可以利用投票数据来做到这一点。不过需要注意的是,这些数据只包含投票结果,没有公开对话历史,因为公开对话会引起隐私和病毒等问题。

双赢率作为校准基础,LMSYS组织还展示了锦标赛中每个模型成对获胜率(如图4),以及使用Elo评价系统预测成对获胜率(如图5)。通过比较这些数据,我们发现Elo评价系统可以相对较好地预测胜负走势。

未来计划

LMSYS组织已经开始规划下一步工作:

添加更多闭源模型:ChatGPT-3.5 已经加入匿名竞技场。

添加更多开源模型。

定期发布排行榜,比如每月一次。

实施更好的采样算法、锦标赛机制和服务系统,以支持更多类型的任务和模式。

提供不同任务类型细粒度排名,为用户提供更加精确化选择。

希望所有用户能提出宝贵意见,以使竞技场变得更加完善。现在,你就能够访问 https://arena.lmsys.org 投票你的心目中的最佳模块。如果你想要查看特定模块,可以按照指南添加它,并且如果你感兴趣的话,也可以浏览 GitHub 仓库了解详细信息。在接下来的日子里,一定要关注我们的进展,看看哪款大型语言模型最终会成为冠军!

标签: 智能遥控器免费学人工智能以后从事什么工作人工智能发展经历阶段智慧生活华为全屋智能家居体验店