2025-02-24 智能 0
【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的风潮如今更是蔚然成风。LMSYS 组织(UC伯克利博士Lianmin Zheng领衔)为了评估这些模型的实力,不仅创设了 Chatbot Arena 基准平台,还通过匿名随机竞争来揭示它们真正的能耐,并定期更新Elo 等级排行榜,以鼓励更多开发者参与贡献新模型,共同推动技术进步。编译 | 陈静琳 责编 屠敏 出品 CSDN(ID:CSDNnews)
在这个充满激情与挑战的大舞台上,大型语言模型们正展现出它们最真实的一面,就像一场无声的“大师对决”,每一次问答都可能决定胜负。在这里,我们不仅见证了知识与智慧的较量,也看到了技术与创新之间精彩纷呈的一幕。
图 1:两个竞技场上的对手相遇,每一个正确答案都是一次击败
数据显示,这个竞技场已经吸引了众多用户,他们以匿名身份进行战斗,每一位玩家都有机会成为英雄。而我们也可以从中找到答案,那就是哪些模型才是真正强大的?
表 1:各项指标统计
在这个过程中,使用收集到的数据计算出了该笔记本中模型的 Elo 评分,并将主要结果放在表格中供大家参考。如果你也有兴趣,可以尝试自己使用投票数据来计算评分,看看你的分析是否能够打破既定的规律。
图 4:双赢率展示
除了排名之外,LMSYS 组织还展示了锦标赛中每个模型的成对获胜率,以及使用 Elo 评级估算出的预测成对获胜率。这两幅图像就像是镜子一样,让我们深入了解每一个角色的力量和潜力。
计划未来
对于未来的工作,LMSYS 组织已经规划了一系列计划:
添加更多闭源模型,如ChatGPT-3.5,它现在已经可用于匿名竞技场。
引入更多开源项目,为社区提供更加丰富多样的选择。
定期更新排行榜,让每个人都能看到最新变化。
提升采样算法、锦标赛机制和服务系统,以支持更多种类和数量的人工智能参赛者。
为不同任务类型提供细粒度排名,让成绩更加精确和公平。
如果你希望为这项工作贡献自己的力量,无论是提交新的模块还是参与投票,都请不要犹豫。访问 https://arena.lmsys.org 开始你的征程吧!如果想查看特定模式,你可以按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)添加它。
演示地址:https: //arena.lmsys.org
排行榜链接:https: //leaderboard.lmsys.org
GitHub 地址:https://github.com/lm-sys/FastChat
Colab 笔记本下载链接:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing