2025-02-24 智能 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的风潮如今蔓延无垠。为了公正评估这些模型的实力,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创设了Chatbot Arena竞技场,让这些模型在匿名、随机的对抗中相互较量,并通过Elo等级排行榜展现各自的实力。这项工作不仅为开发者们提供了一个展示自己的舞台,还邀请整个社区加入,为能提供更好答案的匿名模型投票,这样的合作让竞技场变得更加丰富多彩。
在这个充满激情和智慧的竞技场中,大型语言模型们纷纷上阵,展示它们各自强大的能力。就像一场精彩绝伦的大师对决,每个动作都充满悬念,每一次回答都可能是胜利或失败。在这里,我们可以看到最优秀的大型语言模型,它们如何在各种复杂的问题面前展现出令人惊叹的情报与分析能力。
图 3:前15种语言战斗计数
这张图显示了不同语言之间战斗的情况,其中我们可以清晰地看出英语占据了一席之地,而其他语言也并未落后于人群。每一次战斗,都有着它独特的情感和挑战性,无论是技术问题还是日常生活中的琐事,都能在这里找到答案。
玩家的评分会随着每场比赛而不断更新。这是一个基于线性公式进行计算:
使用收集到的数据,我们能够计算出该笔记本中每个模型的Elo评分,并将结果以表1形式呈现给大家。如果你也有兴趣,可以尝试使用投票数据来自己计算一下评分。
除了公开对话历史引发隐私和病毒等担忧外,数据只包含投票结果,因为公开对话历史会引起隐私和病毒等担忧。但即使如此,这些信息仍然能够帮助我们了解到哪些模型才是真正强大的。双赢率作为校准基础,LMSYS 组织还展示了锦标赛中每个模式成对获胜率以及使用Elo评级估算预测成对获胜率(见图4、5)。通过比较这些数据,我们发现Elo评价系统能够相对较好地预测未来战果。
未来计划
LMSYS 组织正在规划一些新的项目,以进一步完善我们的竞技环境:
添加更多闭源模块,如ChatGPT-3.5已经被纳入到匿名竞技场。
增加更多开源模块以提升服务质量。
定期发布排名列表,以便所有参与者跟踪进度。
改进采样算法、锦标赛机制及服务系统支持更多用户参与。
细化任务类型以实现更精确排名。
为了让我们的平台更加完善,我们诚挚邀请您提出宝贵意见,使我们的竞技场成为所有用户共同享受的地方。如果您想贡献您的新建模或者想要投票支持那些提供最佳答案的大型语言模式,请访问https://arena.lmsys.org 或按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)添加它们至您的个人账户内。你现在就可以开始探索并体验其中奇妙世界!
演示页面:https: //arena.lmsys.org
排行榜链接:https: //leaderboard.lmsys.org
GitHub项目地址:https://github.com/lm-sys/FastChat
Colab笔记本链接:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing