当前位置: 首页 - 行业资讯 - 中国科技馆官网震惊LLM大模型决战排行榜出炉清华雄心勃勃竟然只排第五

中国科技馆官网震惊LLM大模型决战排行榜出炉清华雄心勃勃竟然只排第五

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。为了评估这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创立了Chatbot Arena竞技场,这里通过匿名随机对抗来评估它们,并发布Elo等级排行榜。社区成员可以贡献新模型、参与投票和提问,以帮助开发者们找到最强大的语言处理工具。

在这个竞技场中,大型语言模型们直接进行比拼,就像图1中的情景:某些模型能准确回答问题,而其他则显得力不从心。图3展示了前15种语言的战斗计数,其中英语占据主导地位。

玩家的评分会在每场战斗后线性更新,其公式为:

Ra + Ka * (Sa - Ea)

使用收集到的数据,计算了该笔记本中各个模型的Elo评分,并将主要结果放在表1中。读者也可以尝试使用投票数据来计算自己的评分。不过,由于隐私和病毒等担忧,公开对话历史并未被包含在内,只有投票结果是公开可见的。

双赢率作为校准基础,组织还展示了锦标赛中每个模型成对获胜率(如图4)以及使用Elo预测成对获胜率(如图5)。通过比较,我们发现Elo评级能够相对较好地预测胜率。

未来计划包括添加更多闭源和开源模型,以及定期更新排行榜。此外,将实施更好的采样算法、锦标赛机制和服务系统,以支持更多参与者的加入。此外,还希望提供不同任务类型细粒度排名,让所有用户都能参与反馈,使竞技场更加完善。

LMSYS 组织欢迎整个社区加入这项基准测试工作,可以访问https://arena.lmsys.org进行投票。如果想查看特定模式,可以按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)添加它。

演示页面:https: //arena.lmsys.org

排行榜:https: //leaderboard.lmsys.org

GitHub仓库:https://github.com/lm-sys/FastChat

Colab笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 科技行业资讯