2025-02-24 行业资讯 0
【CSDN 编者按】自GPT火遍全球,开源大型语言模型如雨后春笋般涌现,LMSYS 组织(UC伯克利博士Lianmin Zheng领衔)推出了 Chatbot Arena 竞技场平台,以匿名随机对战评估这些模型,并公布Elo等级排行榜。该平台持续更新,期待更多用户贡献模型进行投票,开发者们也可以参与其中!作者 LMSYS 组织
译者|陈静琳 责编 屠敏
出品 CSDN(ID:CSDNnews)
开源大模型太多?
LMSYS Org 建立了一个竞技场,让他们通过匿名、随机的对抗来形成排行榜,并邀请整个社区加入这项工作,贡献新模型,每个人都可以参与提问和投票来评估它们。
在这个竞技场中,大型语言模型们直接进行比拼,就像图1中显示的那样,有些答案完美无瑕,而有些则显得荒谬无稽。
图 3:前15种语言的战斗计数
数据表明,大多数用户提示都是英语,这一分布反映了全球技术交流的主流趋势。
玩家的评分可以在每场战斗后线性更新。假设玩家A(具有Rating Ra)被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是:
使用收集到的数据,我们计算了该笔记本中每个模型的 Elo 评分,并将主要结果放在表1中。欢迎大家自己尝试使用投票数据来计算评分。此外,由于隐私和病毒问题,我们只包含投票结果,没有公开对话历史双赢率作为校准基础,还展示了锦标赛中的每个模式成对获胜率以及使用Elo评价系统预测成对获胜率。
通过比较数据,可以看出Elo评价系统相较之下能够较好地预测胜率。
图4:模块A在所有非平局A与B战斗中获胜的比例。
图5:在A对B战斗中使用模块A 的Elo评价系统预测未来未来的计划LMSYS 组织计划在以下项目上开展工作:
添加更多闭源模型,如ChatGPT-3.5已经可供匿名竞技场测试。
添加更多开源模型以丰富平台功能。
发布定期更新的排行榜,如每月一次,为社区提供最新信息。
实施更好的采样算法、锦标赛机制和服务系统,以支持更多模式加入比赛。
此外,将为不同任务类型提供细粒度排名,以满足不同需求。在此过程中,我们诚挚地邀请整个社区通过贡献各自拥有的模式并为能提供更好答案而匿名投票加入这项基准测试工作。如果您想参与或查看特定模式,请访问https://arena.lmsys.org以便进一步了解如何添加新的模式至竞技场。
演示页面可以上 https://arena.lmsys.org浏览;全面的排行榜见 https://leaderboard.lmsys.org;GitHub仓库位于 https://github.com/lm-sys/FastChat;Colab笔记本链接为https: //colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing