数据巨兽争霸LLM强者名单揭晓清华学府雄立第五

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量如雨后春笋般增长。为了评估这些模型的性能，LMSYS组织（UC伯克利博士Lianmin Zheng带领）创立了Chatbot Arena，这是一个匿名、随机竞技场，让模型们在这里互相较量，以Elo等级排行榜为依据。这个排行榜不仅定期更新，还鼓励社区成员贡献新模型，并通过投票来评估它们。

在这片数据海洋中，大型语言模型们正进行着一场无声的战斗，就像图1中的那场比赛：模型B以精准答题赢得胜利，而Model A则因错误而落败。

除了对抗记录之外，我们还能从图3中窥见语言分布：英语占据了绝大多数用户提示的大部分。这让人不禁思考，在这样一个多元化的世界里，是否还有其他非英语用户的声音需要被听到？

玩家的评分会根据每场战斗后的实际表现线性更新。如果玩家A（拥有Rating Ra）原本预计能获得Ea分，但最终只拿到了Sa分，那么它的新评分就是Ra + K * (Ea - Sa)，其中K是一个调整参数。在使用收集到的数据计算出该笔记本中每个模型的Elo评分时，我们发现，如表1所示，每个角色的实力都有其独特之处。

但我们知道，没有完美的事情，只有不断改进。因此，LMSYS组织还展示了锦标赛中每个模式成对获胜率（图4），以及使用Elo评价系统预测成对获胜率（图5）。通过比较这些数据，我们发现尽管没有办法完全准确预测结果，但Elo评价系统仍然是目前最好的选择之一。

未来的计划

对于即将到来的挑战，LMSYS组织已经规划了一系列项目：

添加更多闭源和开源大型语言模型。

定期发布最新排名列表。

改善采样算法、锦标赛机制和服务系统以支持更多参与者。

提供不同任务类型更细粒度排名，使得所有参与者都能找到自己的位置。

他们呼吁整个社区共同参与这一基准测试工作，无论你是一位开发者还是普通用户，都可以贡献你的力量，为那些能够提供更好答案的匿名英雄投票。你可以访问https://arena.lmsys.org开始你的征程，如果想查看特定模型，可以按照指南https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model添加它。

要体验竞技场，请点击演示链接：https: //arena.lmsys.org 查看当前排行榜：https: //leaderboard.lmsys.org 或直接访问GitHub仓库 https://github.com/lm-sys/FastChat 来了解更多信息。此外，你也可以从Colab笔记本 https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing 中探索这个神奇世界。

标签：中国的人工智能软件、智能制造的五个层次、智能助手、智能遥控app下载安装、 ai智能聊天软件

上一篇：抗击新冠之手医生护士和科学家的共识最有效的三种抗病毒剂

下一篇：新能源汽车速览三招解锁停车难题电池厂商争夺资源圈地战

数据巨兽争霸LLM强者名单揭晓清华学府雄立第五

大型制水机一台多少钱销售高效纯化水设备

星光璀璨匪我思存宇宙之光永恒的守望者

成都装修设计融合传统与现代的艺术探索

水电施工流程和标准我来教你如何做好这份工作

DIY手工艺提升主南空间气质从灯光到饰品