2025-02-24 智能 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。为了评估这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创立了Chatbot Arena竞技场,这里通过匿名随机对抗来测试它们,并定期发布Elo排行榜。编者期待更多用户贡献模型,参与投票和开发过程。
在这个竞技场中,大型语言模型们展现出了他们的实力,就像图1中的例子那样,某个模型B完美回答问题,而另一个A却答错了。这不仅仅是技术上的较量,还有数据展示,如图3所示,其中显示了前15种语言使用者的分布,大多数用户提示都是英语。
每场战斗结束后玩家的评分会线性更新。如果玩家A以预期得分 Ea 进入,但实际得分Sa,则其评分Ra会根据以下公式更新:
\begin{align*}
Ra' &= Ra + K \cdot (Sa - Ea)
\end{align*}
使用收集到的数据,我们计算并列出了笔记本中各个模型的Elo评分,如表1所示。读者也可以尝试使用投票数据来计算自己的评分。此外,由于公开对话可能引发隐私和病毒等问题,这些数据只包含投票结果,不含对话历史。
除了双赢率作为校准基准之外,组织还展示了锦标赛中每个模型成对获胜率(如图4),以及使用Elo评价系统预测成对获胜率(如图5)。通过比较这些数据,可以看出Elo评价系统相对可靠地预测了胜率。
对于未来工作,LMSYS 组织计划进行以下几个方面的改进:
添加更多闭源模型,如ChatGPT-3.5已经开放加入。
增加支持更多开源项目。
定期更新排行榜,每月一次。
改善采样算法、锦标赛机制和服务系统,以支持更多参与者。
提供更细粒度排名不同任务类型下的表现。
组织鼓励社区成员提供反馈,使竞技场更加完善,同时邀请大家贡献自己擅长领域内的开源或闭源大型语言模型,并为那些提供更好答案的匿名模拟器投票。在https://arena.lmsys.org上可以查看最新排名及相关指南,以及如何添加新模式到比赛中。在GitHub上也有详细文档用于参考:https://github.com/lm-sys/FastChat.
最后,请访问演示页面:https: //arena.lmsys.org 排行榜:https: //leaderboard.lmsys.org GitHub仓库: https://github.com/lm-sys/FastChat Colab笔记本链接:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing