当前位置: 首页 - 行业资讯 - 霎时震惊清华逆袭登顶LLM大模型赛场中风云变幻哪家强

霎时震惊清华逆袭登顶LLM大模型赛场中风云变幻哪家强

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球,开源大型语言模型如雨后春笋般涌现,LMSYS 组织(UC伯克利博士Lianmin Zheng领衔)推出了 Chatbot Arena 竞技场,让这些模型在匿名随机对决中展现实力。Elo 等级排行榜不断更新,社区成员可贡献模型、投票评估,开发者们也能参与其中!作者 LMSYS 组织

译者|陈静琳 责编 屠敏

出品 CSDN(ID:CSDNnews)

开源大模型争霸?

LMSYS Org 创立了一个竞技场,让它们通过众包方式进行匿名、随机的对抗,从而形成排行榜,并邀请整个社区加入这项工作,贡献新模型,每个人都可以参与提问和投票来评估它们,谁才是你心目中的 NO.1 !

图1:大模型们直接进行比拼,就像上图中,一款完美回答正确答案的AI与另一款回答错误答案的AI相遇。

图3:前15种语言的战斗计数显示,大多数用户提示都是英语。

玩家的评分可以在每场战斗后线性更新。假设玩家A(具有Rating Ra)被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是:

使用收集到的数据,我们计算了该笔记本中各个AI的Elo评分,并将主要结果放在表1中。欢迎大家自己尝试使用投票数据来计算评分。由于公开对话历史可能引起隐私和病毒等问题,这些数据只包含投票结果,没有对话历史。

双赢率作为校准基础,还展示了锦标赛中每个AI成对获胜率以及使用Elo评价系统预测成对获胜率。这两幅图清晰地展示了Elo评价系统能够较好地预测胜率。

图4:某一非平局A与B战中的获胜比例。

图5:基于当前Elo值预测未来的比赛胜率。

未来计划:

添加更多闭源模型,如ChatGPT-3.5已加入竞技场。

增加更多开源模型支持。

定期发布最新排行榜,如每月一次。

改进采样算法、锦标赛机制和服务系统以支持更多模式应用。

提供不同任务类型更细粒度排名,以满足不同需求。如果有任何反馈或想法,请分享给我们,使我们的竞技场更加完善。LMSYS 组织诚挚邀请全体成员通过贡献自己的AI并为那些提供更优质答案的匿名AI投票加入这次基准测试。如果您想参与竞技,可以访问https://arena.lmsys.org 投票;如果您想查看特定AI性能,可以按照指南添加它。

演示地址: https://arena.lmsys.org

排行榜链接: https://leaderboard.lmsys.org

GitHub仓库: https://github.com/lm-sys/FastChat

Colab笔记本: https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 科技行业资讯