科学松鼠会大模型决战LLM排行榜揭晓清华惊人第五名

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量激增。LMSYS 组织（UC伯克利博士Lianmin Zheng牵头）为了评估这些模型的性能，创立了Chatbot Arena竞技场。这是一个匿名、随机的对抗平台，让模型们在这里较量，形成Elo等级排行榜。社区成员不仅可以贡献新模型，还能参与投票来评估它们。

就在前几天，大型语言模型们在这个竞技场上展现出了他们的实力，就像图1中的比赛一样。每当一个答案正确或者错误，都会直接影响到它的排名。在这次战斗中，我们看到了许多惊人的结果，其中一些甚至让人难以置信。

除了实际的战斗成绩外，这个平台还提供了关于用户偏好的有趣数据，如图3所示，它显示了所有数据中最常见的是英语。大多数提示都是用英语进行的，这反映出英语作为国际交流工具的地位和影响力。

玩家的评分是通过线性更新公式来计算，每一场战斗都可能改变一个玩家的命运。例如，如果玩家A被期望得分Ea，但实际得分Sa，那么他的评分就会根据这个公式进行更新。

使用收集到的数据，计算了该笔记本中各个模型的Elo评分，并将主要结果放在表1中。如果你也想尝试自己计算，你完全可以利用投票数据来做到这一点。不过需要注意的是，这些数据只包含投票结果，没有公开对话历史，因为公开对话会引起隐私和病毒等问题。

双赢率作为校准基础，LMSYS组织还展示了锦标赛中每个模型成对获胜率（如图4），以及使用Elo评价系统预测成对获胜率（如图5）。通过比较这些数据，我们发现Elo评价系统可以相对较好地预测胜负走势。

未来计划

LMSYS组织已经开始规划下一步工作：

添加更多闭源模型：ChatGPT-3.5 已经加入匿名竞技场。

添加更多开源模型。

定期发布排行榜，比如每月一次。

实施更好的采样算法、锦标赛机制和服务系统，以支持更多类型的任务和模式。

提供不同任务类型细粒度排名，为用户提供更加精确化选择。

希望所有用户能提出宝贵意见，以使竞技场变得更加完善。现在，你就能够访问 https://arena.lmsys.org 投票你的心目中的最佳模块。如果你想要查看特定模块，可以按照指南添加它，并且如果你感兴趣的话，也可以浏览 GitHub 仓库了解详细信息。在接下来的日子里，一定要关注我们的进展，看看哪款大型语言模型最终会成为冠军！

标签：智能遥控器免费、学人工智能以后从事什么工作、人工智能发展经历阶段、智慧生活、华为全屋智能家居体验店

上一篇：高速离心机旋转的笑话中心是你

下一篇：化工切制精细工艺的艺术探索

科学松鼠会大模型决战LLM排行榜揭晓清华惊人第五名

我是施工队长拼合钢筋我的钢结构施工日记

2021年客厅装修风格大赏轻奢与简约并存的新趋势

居家美学客厅顶部装饰艺术的完美展示

主题我儿童房的魔法角落

河流的呼唤清淤重现水乡美景