科技大师们的较量LLM霸榜来袭清华学府竟然冲击前列

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的风潮如今更是蔚然成风。LMSYS 组织（UC伯克利博士Lianmin Zheng领衔）为了评估这些模型的实力，不仅创设了 Chatbot Arena 基准竞技场，还推出了Elo 等级排行榜，这个排行榜至今仍在定期更新中，期待更多开发者和用户参与贡献新模型，并投票支持。

在这个竞技场里，每一个大型语言模型都必须通过匿名、随机的对抗来证明自己的实力，就像一场无声的“诗词大会”。每一次较量，都会有赢家，有输家，但胜负结果并不会让人失望，因为这里不仅是技术展示，更是一次智慧碰撞。

图 3：前 15 种语言的大战计数

数据显示，大多数用户提问都是以英语为主，这也反映出当前科技世界中英文使用者的比例。但这并不意味着其他语言就没有其独特的地位，它们同样值得我们去探索和学习。

玩家的评分可以在每一场战斗后线性更新。假设玩家 A（拥有 Rating Ra）被期望得分 Ea 但实际得分 Sa 。更新玩家的评分公式就是：

Ra = Ra + K * (Sa - Ea)

使用收集到的数据，计算了该笔记本中模型的 Elo 评分，并将主要结果放在表 1 中。欢迎大家自己尝试使用投票数据来计算评分。由于公开对话历史可能引起隐私和病毒等担忧，因此只包含投票结果，没有对话历史。

双赢率作为校准基础，LMSYS 组织还展示了锦标赛中每个模型的成对获胜率（图 4）以及使用 Elo 预测算出的成对获胜率（图 5）。通过比较，我们发现Elo 可以相对较好地预测胜率。

未来计划

LMSYS 组织计划在以下项目上开展工作：

添加更多闭源模型，如ChatGPT-3.5 已经加入匿名竞技场

添加更多开源模型，为社区提供更多选择

发布定期更新的排行榜，每月更新一次

实施更好的采样算法、锦标赛机制和服务系统，以支持更多参与者

提供不同任务类型细粒度排名，让每个角落都能找到属于自己的冠军

希望所有用户能进行反馈，使竞技场变得更加完善。LMSYS 组织邀请整个社区加入这项基准测试工作，贡献各自的模型并为那些能提供更好答案的匿名 모델投票。如果你想成为其中的一员，可以访问 https://arena.lmsys.org 进行投票。如果想在竞技场查看特定模式，只需按照指南（https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model）添加它。

演示：https: //arena.lmsys.org

排行榜：https: //leaderboard.lmsys.org

GitHub：https://github.com/lm-sys/FastChat

Colab 笔记本：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：多功能遥控器下载、中国十大工业机器人公司排名、全自动智能厨房设备、学而思智能讲题机、智能遥控

上一篇：静态混合器的精髓探索静态混合技术与应用的艺术与科学

下一篇：GPT-4的到来如同科技与未来绘画图片中的轮廓勾勒既不落后于ChatGPT又超越其所能及而我们在此景

科技大师们的较量LLM霸榜来袭清华学府竟然冲击前列

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败在十大高科技行业中引发人物关注

在选择大型净水设备时应该考虑哪些因素

水管材种类大全选择合适的管材确保家居安全健康

化学反应中的引发剂催化改变的力量

主题-铸铁的坚韧一段工业史上的辉煌