2025-02-24 行业资讯 0
【CSDN 编者按】自GPT火遍全球,开源大型语言模型如雨后春笋般涌现,LMSYS 组织(UC伯克利博士Lianmin Zheng领衔)推出了 Chatbot Arena 竞技场平台,让这些模型在匿名随机对决中评估其能力,并发布Elo 等级排行榜。社区成员可以贡献更多模型,参与投票,以共同提升竞技场的水平。今天,我们将探索这个充满激情和技术挑战的世界,看看谁能成为最强大的语言模型。
在Chatbot Arena,这些大型语言模型就像武林高手一样,一场一场地进行着较量。每个战斗都是一次精彩纷呈的对决,就像图1中的比赛那样:Model B 准确无误,而Model A 却不幸落败。
数据显示,大多数用户使用的是英语,这反映了全球化背景下英语的地位。在这里,每个玩家都会根据自己的表现不断更新他们的评分。公式简单而直接:如果一个玩家预期会赢得 Ea 分数,但实际上只获得 Sa 分数,那么他们就会得到一个新的 Rating Ra。
表1 中展示了使用收集到的数据计算出的各个笔记本中模型 Elo 评分。如果你也想尝试用投票数据来计算评分,你完全可以自己动手。这份数据仅包含了投票结果,没有包含任何对话历史,因为公开对话可能会带来隐私泄露或病毒传播的问题。不过,即使如此,双赢率依然是衡量胜率的一个重要指标。
通过分析每个模型在非平局战斗中的获胜率(如图4所示),以及它们使用 Elo 评级预测未来的获胜率(如图5所示),我们发现Elo 评级是一个相对准确的预测工具,它能够很好地捕捉到每个模型之间实力的差距。
未来,LMSYS 组织计划继续扩展竞技场,使之变得更加丰富多彩:
添加闭源模型,如ChatGPT-3.5
引入更多开源项目
定期更新排行榜
改进采样算法、锦标赛规则和服务系统以支持更多参与者
提供更细致的任务类型排名
为了让竞技场更加完善,他们正在邀请全体社区成员贡献自己的作品,并为那些提供最佳答案的匿名模块投票。你也可以加入这项工作!访问 https://arena.lmsys.org 投票支持你认为最棒的大师;如果你想要添加特定的模块,请按照指南操作 https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model。
要查看最新排名或了解更多信息,请访问以下链接:
https: //leaderboard.lmsys.org (排行榜)
https: //github.com/lm-sys/FastChat (GitHub)
https: //colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing (Colab 笔记本)