2025-02-24 智能 0
【CSDN 编者按】自GPT火遍全球以来,越来越多的开源大型语言模型涌现出来。LMSYS 组织(UC伯克利博士Lianmin Zheng牵头举办)为了评估这些模型的能力,创立了Chatbot Arena竞技场,让它们在匿名随机对抗中互相较量,并发布Elo等级排行榜。这个排行榜不仅定期更新,还鼓励社区成员贡献新模型,并通过投票帮助评估它们。
在这片竞技场上,大型语言模型们直接进行比拼,就像图1中的模型B完美回答问题,而模型A却答错了,遗憾退出比赛。在所有数据中,我们还看到大多数用户提示都是英语,这体现了当前技术领域的一个趋势。
玩家的评分可以在每场战斗后线性更新。假设玩家A(拥有Rating Ra)被预期得分 Ea 但实际得分 Sa 更新玩家评分的公式是:
使用收集到的数据,计算该笔记本中各个模型的Elo评分,并将主要结果放在表1中。欢迎大家尝试自己使用投票数据来计算评分。不过,由于隐私和病毒等担忧,对话历史并没有公开放出,只有投票结果。
双赢率作为校准基础,LMSYS 组织还展示了锦标赛中每个模式成对获胜率(图4),以及使用Elo评价算出的预测成对获胜率(图5)。通过比较数据,我们发现Elo评价算法能很好地预测胜率。
接下来,LMSYS 组织计划开展以下工作:
添加更多闭源模块,如ChatGPT-3.5已经可用于匿名竞技场。
增加更多开源模块。
发布定期更新的排行榜,每月一次。
实施更好的采样算法、锦标赛机制和服务系统,以支持更多模块。
提供不同任务类型细粒度排名。
希望所有用户能提供反馈,以使竞技场变得更好。LMSYS 组织邀请整个社区加入这项基准测试工作,可以贡献自己的模块,并为提供更好答案的匿名模块投票。如果想查看特定模块,可以按照指南添加它。此外,还可以访问演示页面、查看排行榜,以及参与GitHub项目和Colab笔记本上的相关活动。