当前位置: 首页 - 智能 - 数据巨兽争霸LLM强者名单揭晓清华学府雄立第五

数据巨兽争霸LLM强者名单揭晓清华学府雄立第五

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量如雨后春笋般增长。为了评估这些模型的性能,LMSYS组织(UC伯克利博士Lianmin Zheng带领)创立了Chatbot Arena,这是一个匿名、随机竞技场,让模型们在这里互相较量,以Elo等级排行榜为依据。这个排行榜不仅定期更新,还鼓励社区成员贡献新模型,并通过投票来评估它们。

在这片数据海洋中,大型语言模型们正进行着一场无声的战斗,就像图1中的那场比赛:模型B以精准答题赢得胜利,而Model A则因错误而落败。

除了对抗记录之外,我们还能从图3中窥见语言分布:英语占据了绝大多数用户提示的大部分。这让人不禁思考,在这样一个多元化的世界里,是否还有其他非英语用户的声音需要被听到?

玩家的评分会根据每场战斗后的实际表现线性更新。如果玩家A(拥有Rating Ra)原本预计能获得Ea分,但最终只拿到了Sa分,那么它的新评分就是Ra + K * (Ea - Sa),其中K是一个调整参数。在使用收集到的数据计算出该笔记本中每个模型的Elo评分时,我们发现,如表1所示,每个角色的实力都有其独特之处。

但我们知道,没有完美的事情,只有不断改进。因此,LMSYS组织还展示了锦标赛中每个模式成对获胜率(图4),以及使用Elo评价系统预测成对获胜率(图5)。通过比较这些数据,我们发现尽管没有办法完全准确预测结果,但Elo评价系统仍然是目前最好的选择之一。

未来的计划

对于即将到来的挑战,LMSYS组织已经规划了一系列项目:

添加更多闭源和开源大型语言模型。

定期发布最新排名列表。

改善采样算法、锦标赛机制和服务系统以支持更多参与者。

提供不同任务类型更细粒度排名,使得所有参与者都能找到自己的位置。

他们呼吁整个社区共同参与这一基准测试工作,无论你是一位开发者还是普通用户,都可以贡献你的力量,为那些能够提供更好答案的匿名英雄投票。你可以访问https://arena.lmsys.org开始你的征程,如果想查看特定模型,可以按照指南https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model添加它。

要体验竞技场,请点击演示链接:https: //arena.lmsys.org 查看当前排行榜:https: //leaderboard.lmsys.org 或直接访问GitHub仓库 https://github.com/lm-sys/FastChat 来了解更多信息。此外,你也可以从Colab笔记本 https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing 中探索这个神奇世界。

标签: 中国的人工智能软件智能制造的五个层次智能助手智能遥控app下载安装ai智能聊天软件