2025-02-24 智能 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。为了评估这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创立了Chatbot Arena竞技场,这里通过匿名随机对抗来评估它们,并发布Elo 等级排行榜。社区成员可以贡献新模型、参与投票和提问,以帮助开发者们找到最强大的语言处理工具。
在这个竞技场中,大型语言模型们直接进行比拼,就像图1中的情景:模型B完美回答,而模型A却出错,不得不告别比赛。图3展示了前15种语言的战斗计数,其中英语占据主导地位。
玩家的评分会在每一场战斗后线性更新,公式是Ra + K * (Sa - Ea),其中Ra为初始排名,Ea为预期得分,Sa为实际得分。表1列出了使用收集数据计算出的主要结果。
除了公开数据外,双赢率作为校准基础,还提供了每个模型成对获胜率(如图4)和Elo 评级预测成对获胜率(如图5)的信息。这两张图显示Elo 评级能够较好地预测胜负情况。
未来计划包括添加更多闭源和开源模型,以及定期更新排行榜。此外,将实施更好的采样算法、锦标赛机制以及服务系统,以支持更多参与者。此外,也将提供不同任务类型的细粒度排名,让用户能更精确地评价各个模块。
最后,LMSYS 组织邀请大家加入这项工作,无论是贡献自己的模块还是投票支持表现优异的模块,都能共同推动这个基准测试变得更加完善。你可以访问https://arena.lmsys.org来投票,也可以按照指南添加特定模块到竞技场中。如果你想了解更多,可以查看GitHub仓库或Colab 笔记本链接。