AI大师对决LLM霸榜清华学府奇迹登第五

2025-02-24 行业资讯 0

自GPT爆火之后，当下流行的开源大型语言模型越来越多，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头举办）建立了 Chatbot Arena 基准平台通过匿名随机竞争来评估他们，随后发布Elo 等级排行榜，排行榜至现在仍在定期更新，期待更多的用户贡献模型，进行投票，开发者们也可以参与进来！

作者 LMSYS 组织

译者｜陈静琳责编屠敏

出品 CSDN（ID：CSDNnews）

开源大模型太多？

LMSYS Org 直接建立了一个竞技场，以众包方式让他们匿名、随机的进行对抗，形成排行榜。并邀请整个社区加入这项工作，贡献新模型，每个人都可以参与提问和投票来评估它们，不知道你心目中的 NO.1 是谁？

图 3：前 15 种语言的战斗计数

还有，在所有数据中描绘了语言分布，它显示大多数用户提示都是英语。

玩家的评分可以在每场战斗后线性更新。假设玩家 A（具有 Rating Ra）被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是：

使用收集到的数据，我们计算了该笔记本中模型的 Elo 评分，并将主要结果放在表 1 中。欢迎大家自己尝试使用投票数据来计算评分。并且，由于公开对话历史会引起隐私和病毒等担忧，所以我们只包含投票结果，没有对话历史。

双赢率作为校准的基础，我们还展示了锦标赛中每个模型的成对获胜率（图 4）以及使用 Elo 评级估算预测成对获胜率（图 5）。通过比较这些数据，我们发现 Elo 能够相对较好地预测胜率。

图 4：模型 A 在所有非平局 A 与 B 战斗中获胜的比例。

图 5：在 A 对 B 战斗中使用模型 A 的 Elo 预测未来的计划

我们的计划包括：

添加更多闭源模型，如ChatGPT-3.5现在已经可用。

添加更多开源模型。

发布定期更新的排行榜，比如每月一次。

实施更好的采样算法、锦标赛机制和服务系统以支持更多模模式。

提供不同任务类型细粒度排名。

希望所有用户能进行反馈，以使竞技场变得更好。在这个基准测试工作里，你可以贡献你的自己的建模，并为那些能提供更好答案的人匿名投票。你想成为一名参赛选手吗？访问 https://arena.lmsys.org 为特定的模式查看或添加它。如果你想了解如何参与，请按照指南 (https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model) 添加新的建模过程。

演示：https: //arena.lmsys.org

排行榜：https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

Colab 笔记本：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：科技行业资讯

上一篇：hi nova苹果iPhone7 Plus 美版在上海售价是4750元呢

下一篇：三星S8系列手机发布国内定档3月17日

AI大师对决LLM霸榜清华学府奇迹登第五

冬日暖阳Christmas in My Heart之歌谣故事

人工智能技术对提升人机界面的影响有多大

工控低压变频器设备应用与维护技巧

今年新款手机有哪些京东独家首发中文语音交互手表Ticwatch未来穿戴技术的新篇章

智能工控如何通过自动化软件设备提升生产效率