华为徐直军登顶科技部清华神秘失踪LLM榜单震惊全球

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量激增。为了评估这些模型的性能，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头）创立了Chatbot Arena竞技场，这里通过匿名随机对抗来评估它们，并发布Elo等级排行榜。社区成员可以贡献新模型、参与提问和投票，以帮助开发者们找到最强大的语言模型。

在Chatbot Arena中，大型语言模型就像战士一样直接进行比拼。当一个模型完美地回答问题，而另一个则显得无力应对时，就像图1所示，比赛中的胜负分明。图3展示了前15种语言的战斗计数，其中英语占据了绝大多数。

玩家之间的评分会在每场战斗后线性更新，用公式Ra + K * (Sa - Ea)来计算，其中Ra是玩家的原始评价值,Ea是预期得分,Sa是实际得分。根据收集到的数据，LMSYS 组织计算出了各个模型的Elo评分，并将主要结果放在表1中。

除了公开数据外，组织还展示了双赢率（见图4），以及使用Elo评级估算出的预测成对获胜率（见图5）。通过比较，我们发现Elo评级能够相对准确地预测胜率。

未来计划包括添加更多闭源和开源模型，每月发布更新排行榜，以及改进采样算法、锦标赛机制和服务系统，以支持更多类型的任务。组织欢迎用户反馈，以便使竞技场更加完善。如果你想加入这项基准测试工作，可以访问https://arena.lmsys.org投票，你也可以按照指南添加自己想要查看特定模型的情况：https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model