视频黑科技app大模型对决LLM排行榜出炉清华冲击冠军竟然只名列第五

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型如雨后春笋般涌现。为了评估这些模型的实力，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头）创建了Chatbot Arena竞技场。这座竞技场通过匿名随机对抗来测试它们，并发布Elo等级排行榜。每个月都会更新排行榜，让整个社区都能参与进来，贡献新的模型，并投票评估它们。

在这个充满激烈竞争的环境中，每一位模型都要展现自己的能力，就像图1中的战斗一样：模型B以正确答案而告捷，而模型A则因错误答案而告败。

除了直接比拼，大赛还提供了语言分布数据，如图3所示，大多数用户提示都是英语，这让我们看到不同语言之间的差异和挑战。

玩家的评分会在每场战斗后线性更新，公式如下：

使用收集到的数据，我们计算了该笔记本中各个模型的Elo评分，并将主要结果展示在表1中。我们鼓励大家自己尝试使用投票数据来计算评分，同时指出公开对话历史可能带来的隐私和病毒风险，因此只包含投票结果，没有对话记录。

双赢率作为校准基准，我们还展示了锦标赛中每个模型成对获胜率（如图4），以及使用Elo评级预测成对获胜率（如图5）。通过比较数据，我们发现Elo评级可以相对较好地预测胜率。

对于未来的计划，LMSYS 组织有以下几个方向：

添加更多闭源模式，如ChatGPT-3.5已经加入匿名竞技场。

增加更多开源模式。

发布定期更新的排行榜。

实施更好的采样算法、锦标赛机制和服务系统支持更多模块。

提供不同任务类型细粒度排名，以提升比赛体验。

希望所有用户能够提供反馈，使竞技场变得更加完善。LMSYS 组织邀请整个社区加入这项工作，为那些能提供更好答案的匿名模式投票。如果你想参与，可以访问https://arena.lmsys.org进行投票。如果你想查看特定模式，可以按照指南添加它（https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model）。

演示地址：https: //arena.lmsys.org

排行榜地址：https: //leaderboard.lmsys.org

GitHub 地址：https://github.com/lm-sys/FastChat

Colab 笔记本地址：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：智能制造就业岗位、家居智能化装修、智能生活、手机万能遥控器下载、科大智能

上一篇：蒸汽时代的起点古董纯蒸汽发生器的神秘力量

下一篇：难道不是手机智能机器人app下载让特斯拉AI日活动举办九大芯片厂库存创新高又是怎么回事

视频黑科技app大模型对决LLM排行榜出炉清华冲击冠军竟然只名列第五

轻松解锁家居美学新趋势

二手房贷款指南轻松解锁你的梦想家园

厨房装修效果图片分析与应用研究探索空间美学与实用性之间的平衡点

家居美学简约客厅装修效果图展示温馨舒适的生活空间设计

装修攻略先行布局电气后续打造美观房子装修的先后顺序解析