2025-02-24 智能 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。为了评估这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创立了Chatbot Arena竞技场,这里通过匿名随机对决来测试它们,并定期发布Elo排行榜。社区成员可以贡献新模型、投票和提问,以评估这些AI之战谁才是真正的冠军!
在这个竞技场中,大型语言模型们直接进行一对一的比拼,就像图1中展示的一样,某个名为B的模型回答问题得分满分,而另一个名为A的模型却因错误而落败。
除了比赛成绩,还有数据显示了用户使用的大多数语言是英语,如图3所示。
玩家的评分会在每场战斗后线性更新,用公式Ra + Ka * (Sa - Ea)计算,其中Ra是当前评分,Ka是权重参数,Sa和Ea分别代表实际和预期得分。
根据收集到的数据,我们计算了该笔记本中的模型Elo排名,并将结果放在表1中。欢迎大家自己尝试使用投票数据来计算这些AI们的实力。
由于公开对话历史可能涉及隐私和病毒等风险,这些数据仅包含投票结果,没有提供对话记录双赢率作为校准基础,每个模型都展示了在锦标赛中的成对获胜率(如图4),以及使用Elo系统预测成对获胜率(如图5)。通过比较两者的差异,我们发现Elo系统能够较好地预测哪个AI更强大。
未来计划包括:
添加更多闭源AI(如ChatGPT-3.5)
加入更多开源AI
定期更新排行榜
改善采样算法、锦标赛机制和服务系统以支持更多参与者
提供不同任务类型细粒度排名
我们期待所有用户能提供反馈,让这项基准测试变得更加完善。如果你想加入这项工作,可以访问https://arena.lmsys.org,为那些能给出更好答案的匿名AI投票。如果你想在竞技场查看特定AI,只需按照指南添加它。
演示:https: //arena.lmsys.org
排行榜:https: //leaderboard.lmsys.org
GitHub:https://github.com/lm-sys/FastChat