2025-02-24 智能 0
【科普大模型竞技场】GPT火遍全球,开源大型语言模型如雨后春笋般涌现。LMSYS 组织(UC伯克利博士Lianmin Zheng牵头举办)在Chatbot Arena 基准平台上,通过匿名随机竞争来评估这些巨擘,并发布Elo 等级排行榜。该榜单至今仍在定期更新,期待更多的用户贡献模型,进行投票,开发者们也可以参与进来!作者 LMSYS 组织
译者|陈静琳 责编 屠敏
出品 CSDN(ID:CSDNnews)
开放的大模型世界里,你准备好迎接挑战了吗?
为了解决这个问题,大型语言模型开始直接进行比拼,就像图1中所示,一场战斗只有一个胜出者。在这场激烈的对决中,每一次错误都可能意味着失败,而每一次正确答案都可能是通往胜利之路。
但并非所有战斗都是公平的。图 3展示了前15种语言的战斗计数,其中英语占据了绝对优势。这是否意味着其他语言也能有机会呢?让我们一起探索这个未知领域。
玩家的评分可以在每场战斗后线性更新。假设玩家 A(具有 Rating Ra)被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是:
使用收集到的数据,我们计算出了该笔记本中各个模型的 Elo 评分,并将主要结果放在表 1 中。你也有机会尝试使用投票数据来计算自己的成绩,让我们一起见证你的成长和变化。
但是,这一切背后的秘密是什么?双赢率作为校准的基础,我们还展示了锦标赛中每个模型成对获胜率(图4),以及使用 Elo 评级估算出的预测成对获胜率(图5)。通过比较数据,我们发现Elo 评级确实能够相对较好地预测胜率。
那么未来计划又是什么呢?
LMSYS 组织计划在以下项目上开展工作:
添加更多闭源模型,如ChatGPT-3.5现在已经可供匿名竞技场使用。
添加更多开源模
发布定期更新排行榜,每月一次更正视野,为整个社区提供最新动态。
实施更好的采样算法、锦标赛机制和服务系统,以支持更多加入游戏的人数。
提供不同任务类型细粒度排名,让大家都能找到属于自己的位置。
如何参与到这一全新的冒险旅程中来?
首先,你需要访问https://arena.lmsys.org,为那些努力为你提供答案的小小英雄投票。如果想查看特定模式,可以按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model) 添加它。
演示:https: //arena.lmsys.org
排行榜:https: //leaderboard.lmsys.org
GitHub: https://github.com/lm-sys/FastChat
Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing
上一篇:蒸腾的智慧板式蒸发器的秘密力量