2025-02-24 智能 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)为了评估这些模型的性能,创立了Chatbot Arena竞技场。这是一个匿名、随机的对抗平台,让模型们在这里较量,形成Elo等级排行榜。社区成员不仅可以贡献新模型,还能参与投票来评估它们。
就在前几天,大型语言模型们在这个竞技场上展现出了他们的实力,就像图1中的比赛一样。每当一个答案正确或者错误,都会直接影响到它的排名。在这次战斗中,我们看到了许多惊人的结果,其中一些甚至让人难以置信。
除了实际的战斗成绩外,这个平台还提供了关于用户偏好的有趣数据,如图3所示,它显示了所有数据中最常见的是英语。大多数提示都是用英语进行的,这反映出英语作为国际交流工具的地位和影响力。
玩家的评分是通过线性更新公式来计算,每一场战斗都可能改变一个玩家的命运。例如,如果玩家A被期望得分Ea,但实际得分Sa,那么他的评分就会根据这个公式进行更新。
使用收集到的数据,计算了该笔记本中各个模型的Elo评分,并将主要结果放在表1中。如果你也想尝试自己计算,你完全可以利用投票数据来做到这一点。不过需要注意的是,这些数据只包含投票结果,没有公开对话历史,因为公开对话会引起隐私和病毒等问题。
双赢率作为校准基础,LMSYS组织还展示了锦标赛中每个模型成对获胜率(如图4),以及使用Elo评价系统预测成对获胜率(如图5)。通过比较这些数据,我们发现Elo评价系统可以相对较好地预测胜负走势。
未来计划
LMSYS组织已经开始规划下一步工作:
添加更多闭源模型:ChatGPT-3.5 已经加入匿名竞技场。
添加更多开源模型。
定期发布排行榜,比如每月一次。
实施更好的采样算法、锦标赛机制和服务系统,以支持更多类型的任务和模式。
提供不同任务类型细粒度排名,为用户提供更加精确化选择。
希望所有用户能提出宝贵意见,以使竞技场变得更加完善。现在,你就能够访问 https://arena.lmsys.org 投票你的心目中的最佳模块。如果你想要查看特定模块,可以按照指南添加它,并且如果你感兴趣的话,也可以浏览 GitHub 仓库了解详细信息。在接下来的日子里,一定要关注我们的进展,看看哪款大型语言模型最终会成为冠军!
上一篇:高速离心机旋转的笑话中心是你
下一篇:化工切制精细工艺的艺术探索