高科技大决战LLM强者名单揭晓清华惊人躺第五

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量激增。为了评估这些模型的性能，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头）创立了Chatbot Arena竞技场，这里通过匿名随机对抗来评估它们，并发布Elo 等级排行榜。社区成员可以贡献新模型、参与投票，共同决定哪个是最强大的！

在这个竞技场中，每次战斗都是一场精彩纷呈的较量，如图1所示。每当一个模型正确回答问题时，它就像一位勇士获得胜利；而那些答错的问题则被淘汰。

数据显示，大多数用户提示都是英语，这使得我们能够更好地了解不同语言之间的差异和挑战。在这里，每场比赛结束后玩家的评分都会线性更新。如果预期得分与实际得分不符，那么玩家的评分就会得到调整。

使用收集到的数据，我们计算出了该笔记本中各个模型的 Elo 评分，并将主要结果展示在表1中。你也可以自己尝试使用投票数据来计算这项成绩。此外，由于隐私和病毒等安全考虑，我们只公开了投票结果，而没有提供对话历史。

除了公布双赢率作为校准基础之外，LMSYS 组织还展示了每个模型在锦标赛中的成对获胜率（如图4），以及使用Elo 评级预测未来的成对获胜率（如图5）。通过比较这些数据，我们发现Elo 评级能够相对准确地预测未来比赛的胜负。

面向未来，LMSYS 组织计划开展以下工作：

添加更多闭源模型，如ChatGPT-3.5

增加更多开源模型

定期更新排行榜

实施更好的采样算法、锦标赛机制和服务系统，以支持更多模块

提供不同任务类型细粒度排名

我们诚邀所有用户反馈，以便我们能持续改进竞技场。如果你愿意加入这项基准测试，可以访问https://arena.lmsys.org进行投票。你也可以按照指南添加特定模型至竞技场：https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model

要查看特定模式或浏览最新排行榜，请访问：

演示：https: //arena.lmsys.org

排行榜：https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

Colab 笔记本：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：科技行业资讯

上一篇：职业资格认证对于提高使用专业医疗器械技能至关重要吗

下一篇：GPT-4的出现让连ChatGPT这样的知名科技产品都不再是独树一帜而是被它超越了著名的科技杂志如科

高科技大决战LLM强者名单揭晓清华惊人躺第五

镜头诗人优秀摄影师及作品欣赏

一个一百九十六公分的马刺新秀怎么才能长到二百零六公分

热点快评5G带来电子元件涨价潮影响智能家居发展前景在自然环境中的应用

早安四大花美男古装风格的帅气男子

银幕上的首次亮相探索第一部电影的历史与影响

高科技大决战LLM强者名单揭晓清华惊人躺第五

镜头诗人优秀摄影师及作品欣赏

一个一百九十六公分的马刺新秀 怎么才能长到二百零六公分

热点快评5G带来电子元件涨价潮影响智能家居发展前景在自然环境中的应用

早安四大花美男古装风格的帅气男子

银幕上的首次亮相探索第一部电影的历史与影响

一个一百九十六公分的马刺新秀怎么才能长到二百零六公分