霎时震惊清华逆袭登顶LLM大模型赛场中风云变幻哪家强

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球，开源大型语言模型如雨后春笋般涌现，LMSYS 组织（UC伯克利博士Lianmin Zheng领衔）推出了 Chatbot Arena 竞技场，让这些模型在匿名随机对决中展现实力。Elo 等级排行榜不断更新，社区成员可贡献模型、投票评估，开发者们也能参与其中！作者 LMSYS 组织

译者｜陈静琳责编屠敏

出品 CSDN（ID：CSDNnews）

开源大模型争霸？

LMSYS Org 创立了一个竞技场，让它们通过众包方式进行匿名、随机的对抗，从而形成排行榜，并邀请整个社区加入这项工作，贡献新模型，每个人都可以参与提问和投票来评估它们，谁才是你心目中的 NO.1 ！

图1：大模型们直接进行比拼，就像上图中，一款完美回答正确答案的AI与另一款回答错误答案的AI相遇。

图3：前15种语言的战斗计数显示，大多数用户提示都是英语。

玩家的评分可以在每场战斗后线性更新。假设玩家A（具有Rating Ra）被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是：

使用收集到的数据，我们计算了该笔记本中各个AI的Elo评分，并将主要结果放在表1中。欢迎大家自己尝试使用投票数据来计算评分。由于公开对话历史可能引起隐私和病毒等问题，这些数据只包含投票结果，没有对话历史。

双赢率作为校准基础，还展示了锦标赛中每个AI成对获胜率以及使用Elo评价系统预测成对获胜率。这两幅图清晰地展示了Elo评价系统能够较好地预测胜率。

图4：某一非平局A与B战中的获胜比例。

图5：基于当前Elo值预测未来的比赛胜率。

未来计划：

添加更多闭源模型，如ChatGPT-3.5已加入竞技场。

增加更多开源模型支持。

定期发布最新排行榜，如每月一次。

改进采样算法、锦标赛机制和服务系统以支持更多模式应用。

提供不同任务类型更细粒度排名，以满足不同需求。如果有任何反馈或想法，请分享给我们，使我们的竞技场更加完善。LMSYS 组织诚挚邀请全体成员通过贡献自己的AI并为那些提供更优质答案的匿名AI投票加入这次基准测试。如果您想参与竞技，可以访问https://arena.lmsys.org 投票；如果您想查看特定AI性能，可以按照指南添加它。

演示地址: https://arena.lmsys.org

排行榜链接: https://leaderboard.lmsys.org

GitHub仓库: https://github.com/lm-sys/FastChat

Colab笔记本: https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：科技行业资讯

上一篇：离心脱水机的原理与结构-高效干燥技术的核心设备

下一篇：主题我是谁你问的就是厂房除尘设备厂家- 探索清新空气的秘密之旅

霎时震惊清华逆袭登顶LLM大模型赛场中风云变幻哪家强

时尚穿搭-轻盈夏季mm脱内衣的新趋势与技巧

新能源汽车加速警用无人机守护春运5G乱象迎新规治风潮

新材料新技术如何影响未来市政供水工程的发展

新型活性炭催化剂在医药物料处理中的应用

探秘灭菌仪器世界从烤箱到超声波了解不同类型的灭菌设备