当前位置: 首页 - 智能 - 科技发展论文大模型对决LLM排行榜揭晓清华惊人第五名

科技发展论文大模型对决LLM排行榜揭晓清华惊人第五名

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。为了评估这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创立了Chatbot Arena竞技场,这里通过匿名随机对抗来评估它们,并发布Elo 等级排行榜。社区成员可以贡献新模型、参与投票,共同推动这个基准测试项目。作者 LMSYS 组织

译者|陈静琳 责编 屠敏

出品 CSDN(ID:CSDNnews)

竞技场上,大型语言模型们展现出惊人的实力!它们在无形中进行着一场未来的战争,每一次回答正确或错误,都决定着他们在排行榜上的位置。

图 1:大型语言模型之间的战斗景象

每个挑战都是一次新的开始,不论是英语、西班牙语还是中文,每种语言都有它独特的声音和智慧。

图 3:前 15 种语言使用情况统计

玩家们通过线性更新来调整自己的评分,当一个玩家被期望得分但实际得分低于预期时,他们就会下降。这是一个不断进化的过程,每一次胜利或失败都是成长的一部分。

表 1:根据收集到的数据计算出的各个模型的 Elo 评分

通过这种方式,我们能够更好地了解每个模型的能力,并且也为开发者提供了一个平台,让他们能看到自己的作品如何与其他作品相比。而且,因为公开对话历史可能会引起隐私和病毒等问题,所以只包含投票结果,没有对话历史。

图 4:每个非平局 A 与 B 战斗中获胜率分布

图 5:根据 Elo 预测未来比赛中的获胜率

未来计划:

添加更多闭源模型,如 ChatGPT-3.5 现已加入竞技场

添加更多开源模式

定期更新排行榜

提升采样算法、锦标赛机制和服务系统以支持更多模块

提供不同任务类型细粒度排名

我们期待您的反馈,以便让我们的竞技场变得更加完善。如果您想贡献自己的模块并帮助选出最好的答案,请访问 https://arena.lmsys.org 投票。如果您想查看特定模块,请按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)添加它。

演示地址: https://arena.lmsys.org

排行榜地址: https://leaderboard.lmsys.org

GitHub 地址: https://github.com/lm-sys/FastChat

Colab 笔记本链接: https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 最先进女性机器人ai平面设计中国智能门锁排名前十人工智能带来的好处万能电视机遥控器