当前位置: 首页 - 智能 - 科技馆大模型决战LLM排行榜揭晓清华惊人第五名登场

科技馆大模型决战LLM排行榜揭晓清华惊人第五名登场

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的风潮如今更是蔚然成风。LMSYS 组织(UC伯克利博士Lianmin Zheng领衔)为了评估这些模型的实力,不仅创立了 Chatbot Arena 基准竞技场,还推出了Elo等级排行榜。这个排行榜不仅定期更新,而且还鼓励社区成员贡献更多模型,并通过投票来评估它们的表现。

在这个充满激情和挑战的大舞台上,大型语言模型们直接进行着一场场对决,就像图1中那样,模型B以正确答案而闪耀,而模型A则因错误答案而黯淡。在所有数据中,我们也看到了语言分布:英语占据了绝大多数用户提示的位置,如图3所示。

玩家们可以通过每次战斗后的线性更新来调整他们的评分。如果一个玩家A拥有Rating Ra,但实际得分Sa超过预期得分 Ea,那么他的评价就会得到提升。而我们使用收集到的数据计算出该笔记本中的每个模型的Elo评价,并将主要结果列于表1中。欢迎大家自己尝试使用投票数据来计算这些评价,因为只有这样,才能真正地了解每个角色的实力。

然而,这些数据只包含了最终的投票结果,没有公开对话历史,因为公开对话会引发隐私和病毒等问题。不过,这并不妨碍我们从双赢率出发,对比各个模型在锦标赛中的成就。例如,从图4中,我们可以看到,在所有非平局比赛中,某些模式取得了令人瞩目的胜利;而从图5中,我们还能发现Elo评价能够相对准确地预测未来胜率。

未来的计划里,有许多值得期待的事情,比如增加闭源以及更多开源模块,让竞技场变得更加丰富多彩。此外,还有改善采样算法、锦标赛机制和服务系统,以支持更多参与者的愿望,以及提供不同任务类型细粒度排名,以便更精确地衡量各方实力。这一切都需要我们的共同努力,只有不断反馈和参与,每个人才能够感受到竞技场逐渐完善、力量日益增强的事实。

最后,由于这项工作依赖于整个社区,我邀请你们加入这一基准测试工作,无论是贡献自己的新建模还是为那些提供更好答案的小秘密英雄们投下你的赞赏,都能让这片土地变得更加辉煌。你可以访问 https://arena.lmsys.org 来参与进去,如果你想查看特定模式,可以按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)来添加它。

演示地址:https: //arena.lmsys.org

排行榜查看:https: //leaderboard.lmsys.org

GitHub项目仓库:https://github.com/lm-sys/FastChat

Colab笔记本下载链接:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 人工智能专业的发展前景人工智能最后小男孩结局手机app智能遥控开关智能专业就业前景华为全屋智能