2025-02-24 行业资讯 0
【CSDN 编者按】自GPT火遍全球,开源大型语言模型如雨后春笋般涌现,LMSYS 组织(UC伯克利博士Lianmin Zheng领衔)推出了 Chatbot Arena 竞技场平台,以匿名随机对战评估这些模型,并公布Elo等级排行榜。该平台持续更新,期待更多用户贡献新模型并参与投票。作者 LMSYS 组织
译者|陈静琳 责编 屠敏
出品 CSDN(ID:CSDNnews)
开源大模型竞技场拉开帷幕
LMSYS Org 创立了一个独特的对战平台,让各种大型语言模型在没有身份限制的情况下进行无序、随机的战斗,每一场胜负都将被记录下来,最终形成一个权威的排行榜。这不仅是开发者的挑战,也是一个开放给整个社区参与和贡献的机会,让每个人都能体验到哪个模型最强。
图 1:两款大型语言模型在竞技场上的较量
例如,在这次比赛中,Model B 准确回答问题,而 Model A 却出现了错误,无奈地退出了比赛。
图 3:前15种语言在竞技场中的使用情况
数据显示,大多数用户提示都是以英语为主,这也反映出当前技术发展与应用中英文知识体系占据主导的地位。
玩家的评分会在每一次战斗结束后线性更新,其公式如下:
\frac{Ra + Ea}{2} \times Sa
利用收集到的数据,我们计算了笔记本中各个模型的 Elo 评分,并将结果列于表 1 中。欢迎读者尝试使用投票数据来计算自己的评分。此外,由于隐私保护和病毒防护的问题,我们只提供了简单的投票结果,没有包含任何对话历史。
图 4:Model A 在所有非平局A vs B 战斗中的获胜率
通过分析上述数据,我们可以发现Elo等级能够相对准确地预测未来成败概率。
图 5:使用Model A 的Elo等级预测未来的成败率
未来计划
LMSYS 组织计划展开以下工作:
增加闭源模式(如ChatGPT-3.5 已经可用于匿名竞技场)
增加更多高质量开源模式
定期发布最新排名榜单
改善采样算法、锦标赛规则及服务系统以支持更多模块
提供更细致任务类型排名
我们期待您的宝贵反馈,使我们的竞技场更加完善。如果您愿意贡献自己心仪的大型语言模式并投票支持那些能提供更好答案的匿名模块,请加入我们的基准测试项目。在 https://arena.lmsys.org 上,您可以为更优秀的大型语言模块投票。如果想了解如何添加特定模块,请参考指南。
演示地址: https://arena.lmsys.org
排行榜链接: https://leaderboard.lmsys.org
GitHub仓库: https://github.com/lm-sys/FastChat
Colab 笔记本下载: https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5?usp=sharing