全球公敌之黑科技教父LLM大模型排行榜出炉清华惊人第五

2025-02-24 行业资讯 0

【全球公敌之黑科技教父】LMSYS 组织发起大模型对决，清华惊人第五！自GPT爆火后，当下流行的开源大型语言模型越来越多。为了评估他们，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头举办）建立了 Chatbot Arena 基准平台，通过匿名随机竞争来进行评估，并发布Elo 等级排行榜。排行榜至今仍在定期更新，期待更多的用户贡献模型，进行投票，开发者们也可以参与进来！

在这个竞技场中，大模型们直接进行比拼，就像图1中所示：模型 B 完美说出正确答案，而模型 A 牛头不对马嘴，遗憾出局。数据显示，大多数用户提示都是英语，这也反映了语言分布情况。

玩家的评分可以在每场战斗后线性更新。假设玩家 A（具有 Rating Ra）被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是：

使用收集到的数据，计算了该笔记本中模型的 Elo 评分，并将主要结果放在表 1 中。欢迎大家自己尝试使用投票数据来计算评分。

双赢率作为校准的基础，LMSYS 组织还展示了锦标赛中每个模型的成对获胜率（图 4）以及使用 Elo 评级估算的预测成对获胜率（图 5）。通过比较数据，我们发现 Elo 评级可以相对较好地预测胜率。

未来计划包括添加更多闭源和开源模型、发布定期更新的排行榜、实施更好的采样算法和服务系统，以及提供不同任务类型的细粒度排名。在这项基准测试工作中，每位用户都能为匿名模块投票，以找到最优秀的大型语言模式。如果你想参与竞技场，可以访问 https://arena.lmsys.org 为更好的模块投票。如果想要在竞技场查看特定模块，可以按照指南添加它。

演示：https: //arena.lmsys.org

排行榜：https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

Colab 笔记本：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：科技行业资讯

上一篇：机器大师破碎梦与移动破碎机的价格之谜

下一篇：GPT-4的到来如同科技馆中的一颗新星竟然连ChatGPT都不再是最耀眼的那一颗

全球公敌之黑科技教父LLM大模型排行榜出炉清华惊人第五

情人节的花语之美

探索香氤四季揭秘不同茶花品种的独特魅力

工控工业以太网设备我是如何在智能化工厂中让网络通畅的

Orange与诺基亚延长5G协议瞄准云RAN

智能化生产线的未来自动化软件设备革新制造业