科普界的大决战LLM巨擘榜单出炉清华学府惊人逆袭登第四位

2025-02-24 智能 0

【科普大模型竞技场】GPT火遍全球，开源大型语言模型如雨后春笋般涌现。LMSYS 组织（UC伯克利博士Lianmin Zheng牵头举办）在Chatbot Arena 基准平台上，通过匿名随机竞争来评估这些巨擘，并发布Elo 等级排行榜。该榜单至今仍在定期更新，期待更多的用户贡献模型，进行投票，开发者们也可以参与进来！作者 LMSYS 组织

译者｜陈静琳责编屠敏

出品 CSDN（ID：CSDNnews）

开放的大模型世界里，你准备好迎接挑战了吗？

为了解决这个问题，大型语言模型开始直接进行比拼，就像图1中所示，一场战斗只有一个胜出者。在这场激烈的对决中，每一次错误都可能意味着失败，而每一次正确答案都可能是通往胜利之路。

但并非所有战斗都是公平的。图 3展示了前15种语言的战斗计数，其中英语占据了绝对优势。这是否意味着其他语言也能有机会呢？让我们一起探索这个未知领域。

玩家的评分可以在每场战斗后线性更新。假设玩家 A（具有 Rating Ra）被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是：

使用收集到的数据，我们计算出了该笔记本中各个模型的 Elo 评分，并将主要结果放在表 1 中。你也有机会尝试使用投票数据来计算自己的成绩，让我们一起见证你的成长和变化。

但是，这一切背后的秘密是什么？双赢率作为校准的基础，我们还展示了锦标赛中每个模型成对获胜率（图4），以及使用 Elo 评级估算出的预测成对获胜率（图5）。通过比较数据，我们发现Elo 评级确实能够相对较好地预测胜率。

那么未来计划又是什么呢？

LMSYS 组织计划在以下项目上开展工作：

添加更多闭源模型，如ChatGPT-3.5现在已经可供匿名竞技场使用。

添加更多开源模

发布定期更新排行榜，每月一次更正视野，为整个社区提供最新动态。

实施更好的采样算法、锦标赛机制和服务系统，以支持更多加入游戏的人数。

提供不同任务类型细粒度排名，让大家都能找到属于自己的位置。

如何参与到这一全新的冒险旅程中来？

首先，你需要访问https://arena.lmsys.org，为那些努力为你提供答案的小小英雄投票。如果想查看特定模式，可以按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model) 添加它。

演示：https: //arena.lmsys.org

排行榜：https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

Colab 笔记本：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：简述人工智能发展史、 ai软件是做什么用的、下载万能空调遥控器、装修智能家居系统多少钱、 50个未来产品设计

上一篇：蒸腾的智慧板式蒸发器的秘密力量

下一篇：环氧乙烷灭菌适用于哪些类型的医疗器械

科普界的大决战LLM巨擘榜单出炉清华学府惊人逆袭登第四位

管道防腐-抗蚀剂与涂层技术的结合确保水利系统的安全运行

家居美学邻里心动的装修魔法师

家居美学厨房装修效果图的艺术魅力

家居美学电力布局的巧妙规划

小户型解决方案对于面积不大的房屋怎么进行有效的空间利用和设计调整