中国科技馆官网震惊LLM大模型决战排行榜出炉清华雄心勃勃竟然只排第五

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量激增。为了评估这些模型的性能，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头）创立了Chatbot Arena竞技场，这里通过匿名随机对抗来评估它们，并发布Elo等级排行榜。社区成员可以贡献新模型、参与投票和提问，以帮助开发者们找到最强大的语言处理工具。

在这个竞技场中，大型语言模型们直接进行比拼，就像图1中的情景：某些模型能准确回答问题，而其他则显得力不从心。图3展示了前15种语言的战斗计数，其中英语占据主导地位。

玩家的评分会在每场战斗后线性更新，其公式为：

Ra + Ka * (Sa - Ea)

使用收集到的数据，计算了该笔记本中各个模型的Elo评分，并将主要结果放在表1中。读者也可以尝试使用投票数据来计算自己的评分。不过，由于隐私和病毒等担忧，公开对话历史并未被包含在内，只有投票结果是公开可见的。

双赢率作为校准基础，组织还展示了锦标赛中每个模型成对获胜率（如图4）以及使用Elo预测成对获胜率（如图5）。通过比较，我们发现Elo评级能够相对较好地预测胜率。

未来计划包括添加更多闭源和开源模型，以及定期更新排行榜。此外，将实施更好的采样算法、锦标赛机制和服务系统，以支持更多参与者的加入。此外，还希望提供不同任务类型细粒度排名，让所有用户都能参与反馈，使竞技场更加完善。

LMSYS 组织欢迎整个社区加入这项基准测试工作，可以访问https://arena.lmsys.org进行投票。如果想查看特定模式，可以按照指南（https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model）添加它。

演示页面：https: //arena.lmsys.org

排行榜：https: //leaderboard.lmsys.org

GitHub仓库：https://github.com/lm-sys/FastChat

Colab笔记本：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：科技行业资讯

上一篇：局长与女子不雅聊天事件引发学霸科技树疑云物品中隐藏的秘密正在被一名胡局揭露纪委回应正在跟进中

下一篇：高效干燥技术的创新双锥回转真空干燥机的运用与优势

中国科技馆官网震惊LLM大模型决战排行榜出炉清华雄心勃勃竟然只排第五

化工蒸汽发生器功效与选择指南

专利申请中什么是发明性质和实用新型的区别

水韵探秘揭开水质之谜的诗意探索

时刻精准uhr150油水分离器的无缝运作秘密

油水分离器之谜泵浦与滤网的秘密协同