2025-02-24 行业资讯 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量如雨后春笋般增长。为了评估这些模型的性能,LMSYS组织(UC伯克利博士Lianmin Zheng带领)创立了Chatbot Arena竞技场,这里通过匿名随机对战来考验它们,并公布Elo等级排行榜,以期鼓励更多开发者贡献自己的模型,并参与投票。作者 LMSYS 组织
译者|陈静琳 责编 屠敏
出品 CSDN(ID:CSDNnews)
在这座虚拟的竞技场内,大型语言模型们正进行着激烈的较量,就像一场不屈不挠的战斗,每一次回合都可能决定胜败。大多数用户提示是以英语为主,这反映出当前技术发展中的一个现实——英语作为国际交流和技术传播的主要媒介。
每一场比赛结束后,玩家的评分都会根据线性公式更新。如果某个玩家预计会得分 Ea,但实际得分 Sa 不符合预期,那么他的评分 Ra 就会发生变化。这意味着,每一次与其他模型对话,都能提升或降低一个模型在排行榜上的位置。
表 1 中展示了使用收集到的数据计算出的该笔记本中各个模型的 Elo 评分。读者也可以尝试使用投票数据自己计算这个过程,因为所有数据都公开可供参考,只不过没有包含对话历史,因为公开对话历史可能涉及隐私和病毒问题。
除了双赢率之外,LMSYS组织还展示了锦标赛中每个模型成对获胜率以及使用Elo评级估算后的预测成对获胜率。在图 4 和图 5 中,我们可以看到Elo评级如何准确地预测了未来比赛结果。
未来工作计划包括:
添加更多闭源模式,如ChatGPT-3.5已经加入匿名竞技场。
增加支持不同任务类型细粒度排名。
实施更好的采样算法、锦标赛机制和服务系统以支持更多模型。
发布定期更新排行榜,如每月更新。
希望所有用户能提供反馈,让这个平台变得更加完善。LMSYS组织邀请社区成员贡献他们自己的模块并为那些提供更好答案的匿名模块投票。这是一个开放式项目,你可以访问https://arena.lmsys.org来参与其中。如果你想将特定的模块添加到竞技场,可以按照指南https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model进行操作。
演示:https: //arena.lmsys.org
排行榜:https: //leaderboard.lmsys.org
GitHub: https://github.com/lm-sys/FastChat
Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing