2025-02-24 智能 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型如雨后春笋般涌现。为了评估这些模型的实力,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创建了Chatbot Arena竞技场。这座竞技场通过匿名随机对抗来测试它们,并发布Elo等级排行榜。每个月都会更新排行榜,让整个社区都能参与进来,贡献新的模型,并投票评估它们。
在这个充满激烈竞争的环境中,每一位模型都要展现自己的能力,就像图1中的战斗一样:模型B以正确答案而告捷,而模型A则因错误答案而告败。
除了直接比拼,大赛还提供了语言分布数据,如图3所示,大多数用户提示都是英语,这让我们看到不同语言之间的差异和挑战。
玩家的评分会在每场战斗后线性更新,公式如下:
使用收集到的数据,我们计算了该笔记本中各个模型的Elo评分,并将主要结果展示在表1中。我们鼓励大家自己尝试使用投票数据来计算评分,同时指出公开对话历史可能带来的隐私和病毒风险,因此只包含投票结果,没有对话记录。
双赢率作为校准基准,我们还展示了锦标赛中每个模型成对获胜率(如图4),以及使用Elo评级预测成对获胜率(如图5)。通过比较数据,我们发现Elo评级可以相对较好地预测胜率。
对于未来的计划,LMSYS 组织有以下几个方向:
添加更多闭源模式,如ChatGPT-3.5已经加入匿名竞技场。
增加更多开源模式。
发布定期更新的排行榜。
实施更好的采样算法、锦标赛机制和服务系统支持更多模块。
提供不同任务类型细粒度排名,以提升比赛体验。
希望所有用户能够提供反馈,使竞技场变得更加完善。LMSYS 组织邀请整个社区加入这项工作,为那些能提供更好答案的匿名模式投票。如果你想参与,可以访问https://arena.lmsys.org进行投票。如果你想查看特定模式,可以按照指南添加它(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)。
演示地址:https: //arena.lmsys.org
排行榜地址:https: //leaderboard.lmsys.org
GitHub 地址:https://github.com/lm-sys/FastChat
Colab 笔记本地址:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing