移动支付大决战LLM排行榜震动清华惊人地冲击冠军宝座

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量激增。为了评估这些模型的性能，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头）创立了Chatbot Arena竞技场，这里通过匿名随机对抗来测试它们，并定期发布Elo排行榜。编者期待更多用户贡献模型，参与投票和开发过程。

在这个竞技场中，大型语言模型们展现出了他们的实力，就像图1中的例子那样，某个模型B完美回答问题，而另一个A却答错了。这不仅仅是技术上的较量，还有数据展示，如图3所示，其中显示了前15种语言使用者的分布，大多数用户提示都是英语。

每场战斗结束后玩家的评分会线性更新。如果玩家A以预期得分 Ea 进入，但实际得分Sa，则其评分Ra会根据以下公式更新：

\begin{align*}

Ra' &= Ra + K \cdot (Sa - Ea)

\end{align*}

使用收集到的数据，我们计算并列出了笔记本中各个模型的Elo评分，如表1所示。读者也可以尝试使用投票数据来计算自己的评分。此外，由于公开对话可能引发隐私和病毒等问题，这些数据只包含投票结果，不含对话历史。

除了双赢率作为校准基准之外，组织还展示了锦标赛中每个模型成对获胜率（如图4），以及使用Elo评价系统预测成对获胜率（如图5）。通过比较这些数据，可以看出Elo评价系统相对可靠地预测了胜率。

对于未来工作，LMSYS 组织计划进行以下几个方面的改进：

添加更多闭源模型，如ChatGPT-3.5已经开放加入。

增加支持更多开源项目。

定期更新排行榜，每月一次。

改善采样算法、锦标赛机制和服务系统，以支持更多参与者。

提供更细粒度排名不同任务类型下的表现。

组织鼓励社区成员提供反馈，使竞技场更加完善，同时邀请大家贡献自己擅长领域内的开源或闭源大型语言模型，并为那些提供更好答案的匿名模拟器投票。在https://arena.lmsys.org上可以查看最新排名及相关指南，以及如何添加新模式到比赛中。在GitHub上也有详细文档用于参考：https://github.com/lm-sys/FastChat.

最后，请访问演示页面：https: //arena.lmsys.org 排行榜：https: //leaderboard.lmsys.org GitHub仓库： https://github.com/lm-sys/FastChat Colab笔记本链接：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：浅谈人工智能论文3000字、人工智能专业考研学校推荐、智能遥控器怎么用、 ai智能系统、 ai语音

上一篇：液压油的秘密解锁工业机器人之力

下一篇：谷歌改进聊天机器人PS中引入AI图像编辑智能早报探索AI生成论文新领域

移动支付大决战LLM排行榜震动清华惊人地冲击冠军宝座

创新之风引领发展的步伐警惕AI产业潜伏的泡沫化风险专家呼吁共创未来不忘初心

3年级科技小制作手工展现6年级智能创新风尚GPT-4闪耀榜首330亿参数小羊驼开源之星

芯片解密公司领先的半导体技术研究与开发机构

人物广撒网探索论文之谜

主题-爽一点搔一点叫大声点解锁GIF中的快乐挑战