2025-02-24 智能 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。为了评估这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创立了Chatbot Arena 基准平台,这里通过匿名随机竞争来评估它们,并发布Elo 等级排行榜。社区成员可以贡献新模型、参与投票,共同决定哪个模型最强。
在这个竞技场中,大型语言模型们直接进行对抗,就像图1所示,某些模型能完美回答问题,而有些则因错误而淘汰。在所有数据中,我们看到英语是最受欢迎的提示语言,如图3所示。
玩家在每场战斗后会根据线性公式更新其评分。如果你想尝试自己计算评分,你可以使用收集到的数据和公式。此外,由于隐私和病毒等担忧,对话历史并未公开,只有投票结果可用。
除了双赢率,每个模型的成对获胜率(如图4)以及使用Elo 评级预测成对获胜率(如图5)的数据也被展示。分析表明,Elo 评级能够较好地预测胜率。
未来计划包括添加更多闭源和开源模型、定期更新排行榜、改进采样算法与服务系统,以及提供更细粒度排名。这一切都需要用户反馈,以便让竞技场更加完善。加入这项基准测试工作,你只需贡献自己的模型并为表现出色的匿名模式投票。你可以访问https://arena.lmsys.org来开始你的旅程。如果你想在竞技场上查看特定模块,可以按照指南添加它。
演示:https: //arena.lmsys.org
排行榜:https: //leaderboard.lmsys.org
GitHub:https://github.com/lm-sys/FastChat
Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing