科技发展论文大模型对决LLM排行榜揭晓清华惊人第五名

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量激增。为了评估这些模型的性能，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头）创立了Chatbot Arena竞技场，这里通过匿名随机对抗来评估它们，并发布Elo 等级排行榜。社区成员可以贡献新模型、参与投票，共同推动这个基准测试项目。作者 LMSYS 组织

译者｜陈静琳责编屠敏

出品 CSDN（ID：CSDNnews）

竞技场上，大型语言模型们展现出惊人的实力！它们在无形中进行着一场未来的战争，每一次回答正确或错误，都决定着他们在排行榜上的位置。

图 1：大型语言模型之间的战斗景象

每个挑战都是一次新的开始，不论是英语、西班牙语还是中文，每种语言都有它独特的声音和智慧。

图 3：前 15 种语言使用情况统计

玩家们通过线性更新来调整自己的评分，当一个玩家被期望得分但实际得分低于预期时，他们就会下降。这是一个不断进化的过程，每一次胜利或失败都是成长的一部分。

表 1：根据收集到的数据计算出的各个模型的 Elo 评分

通过这种方式，我们能够更好地了解每个模型的能力，并且也为开发者提供了一个平台，让他们能看到自己的作品如何与其他作品相比。而且，因为公开对话历史可能会引起隐私和病毒等问题，所以只包含投票结果，没有对话历史。

图 4：每个非平局 A 与 B 战斗中获胜率分布

图 5：根据 Elo 预测未来比赛中的获胜率

未来计划：

添加更多闭源模型，如 ChatGPT-3.5 现已加入竞技场

添加更多开源模式

定期更新排行榜

提升采样算法、锦标赛机制和服务系统以支持更多模块

提供不同任务类型细粒度排名

我们期待您的反馈，以便让我们的竞技场变得更加完善。如果您想贡献自己的模块并帮助选出最好的答案，请访问 https://arena.lmsys.org 投票。如果您想查看特定模块，请按照指南（https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model）添加它。

演示地址: https://arena.lmsys.org

排行榜地址: https://leaderboard.lmsys.org

GitHub 地址: https://github.com/lm-sys/FastChat

Colab 笔记本链接: https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：最先进女性机器人、 ai平面设计、中国智能门锁排名前十、人工智能带来的好处、万能电视机遥控器

上一篇：化工制药用气设备让你的实验室不再缺氧活力满分

下一篇：实验室常用设备简介

科技发展论文大模型对决LLM排行榜揭晓清华惊人第五名

不同尺寸的不锈钢丝网波纹填料在性能上的区别是什么

如何选择合适的水质检测设备

纯水之心工业超滤的守护者

工业高压反应釜在化工生产中的应用与发展现状研究

不锈钢反应釜维修技术与注意事项