2025-02-24 行业资讯 0
【未来科技大决战】:LMSYS Org 引领开源大模型竞技,清华学府惊人逆袭登顶五强行列!
自GPT爆火之后,当下流行的开源大型语言模型越来越多。为了评估和比较这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头举办)建立了 Chatbot Arena 基准平台。通过匿名随机竞争,这个平台评估了他们,并发布Elo 等级排行榜。这份排行榜至今仍在定期更新,期待更多的用户贡献模型,进行投票,开发者们也可以参与进来!
在这个Chatbot Arena 中,大量的开源和闭源语言模型都被邀请参加战斗,每一场战斗都是匿名、随机进行。在这里,你会看到各种各样的对抗,就像图1中所展示的一样,那里有一个胜出而另一个落败的情况发生。
除了直接对比,还有更深入的地图展现了整个数据集中的语言分布情况,如图 3 所示,我们可以看出绝大部分提示都是使用英语。
玩家的评分会在每场战斗后线性更新,其公式是:
Ra + Ka * (Sa - Ea)
使用收集到的数据计算并将主要结果放在表 1 中。欢迎大家自己尝试使用投票数据来计算评分。
此外,由于公开对话历史可能引发隐私和病毒等问题,因此只包含投票结果,没有对话历史。此外,双赢率作为校准的基础,还展示了锦标赛中每个模型的成对获胜率(如图4),以及根据Elo 评价系统预测成对获胜率(如图5)。通过比较这些数据,我们发现Elo 评价系统能够相对于较好地预测胜率。
未来的计划包括添加更多闭源和开源模型,加强服务系统以支持更多模型,以及提供不同任务类型细粒度排名。如果你想加入这项基准测试工作,可以访问https://arena.lmsys.org为能提供更好答案的匿名模型投票。你还可以按照指南添加特定模块到竞技场中。
演示地址:https: //arena.lmsys.org
排行榜地址:https: //leaderboard.lmsys.org
GitHub 地址:https://github.com/lm-sys/FastChat
Colab 笔记本地址:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing