2025-02-24 行业资讯 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。为了评估这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创立了Chatbot Arena竞技场,这里通过匿名随机对抗来评估它们,并发布Elo等级排行榜。社区成员可以贡献新模型、参与提问和投票,以帮助开发者们找到最强大的语言模型。
在Chatbot Arena中,大型语言模型就像战士一样直接进行比拼。当一个模型完美地回答问题,而另一个则显得无力应对时,就像图1所示,比赛中的胜负分明。图3展示了前15种语言的战斗计数,其中英语占据了绝大多数。
玩家之间的评分会在每场战斗后线性更新,用公式Ra + K * (Sa - Ea)来计算,其中Ra是玩家的原始评价值,Ea是预期得分,Sa是实际得分。根据收集到的数据,LMSYS 组织计算出了各个模型的Elo评分,并将主要结果放在表1中。
除了公开数据外,组织还展示了双赢率(见图4),以及使用Elo评级估算出的预测成对获胜率(见图5)。通过比较,我们发现Elo评级能够相对准确地预测胜率。
未来计划包括添加更多闭源和开源模型,每月发布更新排行榜,以及改进采样算法、锦标赛机制和服务系统,以支持更多类型的任务。组织欢迎用户反馈,以便使竞技场更加完善。如果你想加入这项基准测试工作,可以访问https://arena.lmsys.org投票,你也可以按照指南添加自己想要查看特定模型的情况:https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model
演示:https: //arena.lmsys.org
排行榜:https: //leaderboard.lmsys.org
GitHub: https://github.com/lm-sys/FastChat
Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing
上一篇:化学工艺中的精细切割技术革新
下一篇:反应器内部构件的精妙设计与功能