当前位置：首页 - 行业资讯 - 创新大爆发清华冲击巅峰LLM榜单激战中

创新大爆发清华冲击巅峰LLM榜单激战中

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球，开源大型语言模型如雨后春笋般涌现，LMSYS 组织（UC伯克利博士Lianmin Zheng领衔）推出了 Chatbot Arena 竞技场平台，以匿名随机对战评估这些模型，并公布Elo等级排行榜。该平台持续更新，期待更多用户贡献模型进行投票，开发者们也可以参与其中！作者 LMSYS 组织

译者｜陈静琳责编屠敏

出品 CSDN（ID：CSDNnews）

开源大模型太多？竞技场来了！

LMSYS Org 建立了一个独特的竞技场，让它们在匿名、随机的情况下进行对抗，这样就形成了一张排行榜。并邀请整个社区加入这项工作，贡献新模型，每个人都可以参与提问和投票来评估它们。

图 3：前 15 种语言的战斗计数

数据显示，大多数用户提示都是英语。

玩家的评分可以在每场战斗后线性更新。假设玩家 A（具有 Rating Ra）被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是：

使用收集到的数据，我们计算了该笔记本中模型的 Elo 评分，并将主要结果放在表 1 中。欢迎大家自己尝试使用投票数据来计算评分。

通过比较数据，我们发现 Elo 评级可以相对较好地预测胜率。

图 4：模型 A 在所有非平局 A 与 B 战斗中获胜的比例。

图 5：在 A 对 B 战斗中使用模型 A 的 Elo 预测未来的计划LMSYS 组织计划在以下项目上开展工作：

添加更多闭源模型（ChatGPT-3.5 现已在匿名竞技场可用）

添加更多开源模式

标签：科技行业资讯

上一篇：旋涡之心萃取器的秘密篇章

下一篇：万能拉力机系统强大多功能拉伸设备

相关推荐

推荐资讯

热门文章