2025-02-24 行业资讯 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的风潮如今蔓延无垠。为了公正评估这些模型性能,LMSYS 组织(UC伯克利博士Lianmin Zheng带领)推出了Chatbot Arena,这个匿名竞技场通过随机对战来考验它们,并定期更新Elo 等级排行榜。这里不仅开发者们可以参与竞技,还能投票支持那些提供最佳答案的模型。
在这个充满激情与挑战的世界里,大型语言模型们就像勇士一般相遇,不分输赢,只有最强者才能够站立。在这种情况下,我们看到图1中,某些模型表现出色,而另一些则显得有些尴尬,但每一次战斗都是宝贵的经验。
数据显示,英语占据了绝大多数用户提示,其中前15种语言的大规模对决结果见于图3。这一切都在不断地向我们展示,每一次交锋都是一次学习和成长的机会。
玩家之间的排名会根据每场比赛线性更新其评分。如果一个玩家预计能得到EA分但实际上只拿到了SA,那么他们就会被重新打上Rating Ra等级。这一过程对于提升参赛者的能力至关重要,因为它鼓励他们不断进步、超越自己。
通过收集到的数据,我们得知使用笔记本中的模型 Elo 评分,并将主要结果放在表1中。你也可以试着自己计算这项成绩,并且你还会发现,尽管没有公开对话历史,但通过Elo 评级系统,我们仍然能够准确预测胜率,如同图4和图5所示,这是双赢率作为校准基础的一部分。
未来计划包括添加更多闭源以及开源模型,同时保持定期发布排行榜。此外,他们还计划改善采样算法、锦标赛机制和服务系统以支持更多参与者的加入。最后,他们希望从社区获得反馈,以便让竞技场变得更加完善。
演示:https: //arena.lmsys.org
排行榜:https: //leaderboard.lmsys.org
GitHub: https://github.com/lm-sys/FastChat
Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing