当前位置: 首页 - 行业资讯 - 高科技大决战LLM强者名单揭晓清华惊人躺第五

高科技大决战LLM强者名单揭晓清华惊人躺第五

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。为了评估这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创立了Chatbot Arena竞技场,这里通过匿名随机对抗来评估它们,并发布Elo 等级排行榜。社区成员可以贡献新模型、参与投票,共同决定哪个是最强大的!

在这个竞技场中,每次战斗都是一场精彩纷呈的较量,如图1所示。每当一个模型正确回答问题时,它就像一位勇士获得胜利;而那些答错的问题则被淘汰。

数据显示,大多数用户提示都是英语,这使得我们能够更好地了解不同语言之间的差异和挑战。在这里,每场比赛结束后玩家的评分都会线性更新。如果预期得分与实际得分不符,那么玩家的评分就会得到调整。

使用收集到的数据,我们计算出了该笔记本中各个模型的 Elo 评分,并将主要结果展示在表1中。你也可以自己尝试使用投票数据来计算这项成绩。此外,由于隐私和病毒等安全考虑,我们只公开了投票结果,而没有提供对话历史。

除了公布双赢率作为校准基础之外,LMSYS 组织还展示了每个模型在锦标赛中的成对获胜率(如图4),以及使用Elo 评级预测未来的成对获胜率(如图5)。通过比较这些数据,我们发现Elo 评级能够相对准确地预测未来比赛的胜负。

面向未来,LMSYS 组织计划开展以下工作:

添加更多闭源模型,如ChatGPT-3.5

增加更多开源模型

定期更新排行榜

实施更好的采样算法、锦标赛机制和服务系统,以支持更多模块

提供不同任务类型细粒度排名

我们诚邀所有用户反馈,以便我们能持续改进竞技场。如果你愿意加入这项基准测试,可以访问https://arena.lmsys.org进行投票。你也可以按照指南添加特定模型至竞技场:https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model

要查看特定模式或浏览最新排行榜,请访问:

演示:https: //arena.lmsys.org

排行榜:https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 科技行业资讯