2025-02-24 智能 0
时代科技:开源大模型竞技场揭秘!UC伯克利博士Lianmin Zheng牵头的Chatbot Arena通过匿名随机对抗评估模型,Elo等级排行榜震撼全球AI界!
自GPT火爆之后,流行的开源大型语言模型越来越多。为了解决这个问题,LMSYS 组织(由UC伯克利博士Lianmin Zheng牵头)建立了 Chatbot Arena 基准平台,这个平台通过匿名随机竞争来评估这些模型,并发布Elo 等级排行榜。这个排行榜至今仍在定期更新,以期待更多用户贡献新的模型,并进行投票。
开发者们也可以参与进来!他们可以访问 https://arena.lmsys.org 为更好的模型投票。如果想在竞技场中查看特定模型,可以按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)添加它。
在这次比赛中,大型语言模式们直接进行比拼,就像图1中所示,一个完美地回答了正确答案,而另一个则不幸地出现了错误。图3展示了前15种语言的战斗计数,其中显示大多数用户提示都是英语。
玩家的评分可以在每场战斗后线性更新。假设玩家 A(具有 Rating Ra)被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是:
使用收集到的数据,计算了该笔记本中模型的 Elo 评分,并将主要结果放在表1中。欢迎大家自己尝试使用投票数据来计算评分。但是,由于公开对话历史会引起隐私和病毒等担忧,所以数据只包含投票结果,没有对话历史。
双赢率作为校准的基础,LMSYS 组织还展示了锦标赛中每个模型的成对获胜率(图4)以及使用 Elo 评级估算的预测成对获胜率(图5)。通过比较数据,我们发现 Elo 评级可以相对较好地预测胜率。
接下来,有以下计划:
添加更多闭源模式
添加更多开源模式
发布定期更新排行榜
实施更好的采样算法、锦标赛机制和服务系统以支持更多模
希望所有用户能进行反馈,以使竞技场变得更好。在演示页面 https://arena.lmsys.org 上,你可以查看当前正在进行的大型语言模式之间激烈角逐。而排名列表可见于 https://leaderboard.lmsys.org 上。你还能从 GitHub 获取相关信息:https://github.com/lm-sys/FastChat,并且Colab 笔记本位于 https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing