当前位置: 首页 - 行业资讯 - 科技之战LLM巨擘竞技场清华突袭五强行列

科技之战LLM巨擘竞技场清华突袭五强行列

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量如雨后春笋般增长。为了评估这些模型的性能,LMSYS组织(UC伯克利博士Lianmin Zheng带领)创立了Chatbot Arena,这是一个匿名、随机竞技场,让模型们在这里互相较量,以Elo等级排行榜为依据。这个平台不仅限于开发者和研究人员,也欢迎社区成员参与投票,为更好的答案提供支持。

在这个竞技场中,大型语言模型们就像武士一样,对战着,试图证明自己的实力。在每一场战斗中,都有胜者和败者,就像图1中的例子那样,Model B以其准确无误的回答而获得胜利,而Model A则因为错误而落败。

除了直接对抗,每个数据点都揭示了语言使用的分布情况,如图3所示,我们可以看到英语是最受欢迎的语言。这使得我们能够更好地理解不同用户群体之间如何进行交流。

玩家们根据每次战斗后的表现来更新他们的评分。如果一个玩家预期能赢,但实际上输掉了,那么他们就会失去一些分数。这种线性更新保证了排名系统的公平性。

通过收集到的数据,我们计算出了各个模型在笔记本上的Elo评分,并将结果展示给大家看(表1)。你也可以尝试使用投票数据来计算出自己的成绩,这是一种很好的学习机会。

由于公开对话可能会引起隐私问题或病毒传播的问题,我们只保留了投票结果,没有包含任何对话内容。但即便如此,双赢率仍然成为了我们评价比赛质量的一个重要指标。同时,我们还展示了每个模型在比赛中的成对获胜率(见图4),以及使用Elo评级算出的预测成对获胜率(见图5)。

通过比较这两组数据,我们发现Elo评级似乎能够很好地预测哪些模型会赢得更多比赛。这让我们对于未来的计划充满信心,即将添加更多闭源和开源的大型语言模型,以及定期发布更新排行榜,让整个社区都能参与进来,使我们的竞技场变得更加多样化和精彩。

我们的未来计划包括:

添加更多闭源的大型语言模型,比如ChatGPT-3.5,它已经可供匿名竞技场使用。

增加更多开源大型语言模块。

定期发布新的排行榜,以保持活跃度。

改善采样算法、锦标赛机制和服务系统,以支持更多类型的心智挑战任务。

提供细粒度排名,为不同的任务类型提供更精确的地位评价。

希望所有用户能积极反馈,以帮助我们完善这一基准测试平台。而且,如果你想贡献你的自己创建的大型语言模块,你可以按照指南进行操作,然后将它们提交到我们的开放平台上。你还可以访问https://arena.lmsys.org来查看最新动态并为你的最爱投票。如果你想了解具体如何添加新模式,请访问GitHub上的FastChat项目文档中的“How to add a new model”部分。在那里,你会找到详细说明及指导。

最后,不要忘记查看演示视频:https://arena.lmsys.org 排行榜:https://leaderboard.lmsys.org GitHub仓库:https://github.com/lm-sys/FastChat Colab笔记本:https: //colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 科技行业资讯