当前位置: 首页 - 智能 - 重生之科技垄断巨头LLM大模型battle中清华惊人第五

重生之科技垄断巨头LLM大模型battle中清华惊人第五

2025-02-24 智能 0

自GPT爆火之后,当下流行的开源大型语言模型越来越多,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头举办)建立了 Chatbot Arena 基准平台通过匿名随机竞争来评估他们,随后发布Elo 等级排行榜,排行榜至现在仍在定期更新,期待更多的用户贡献模型,进行投票,开发者们也可以参与进来!

开源大模型太多?

LMSYS Org 直接建立了一个竞技场,以众包方式让他们匿名、随机的进行对抗,形成排行榜。并邀请整个社区加入这项工作,贡献新模型,每个人都可以参与提问和投票来评估它们,你心目中的 NO.1 !就像图1所示,大型语言模型们直接进行比拼,在这个舞台上,只有最强大的才能站立。

图 3:前 15 种语言的战斗计数

数据显示,大多数用户提示都是英语,这也是为什么我们看到那么多关于如何提高英语水平的问题。

玩家的评分可以在每场战斗后线性更新。假设玩家 A(具有 Rating Ra)被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是:

使用收集到的数据,我们计算了该笔记本中所有模型的 Elo 评分,并将主要结果放在表 1 中。你也可以尝试使用投票数据自己计算这些成绩。

还展示了锦标赛中每个模型成对获胜率以及使用 Elo 预测成对获胜率(如图4和5)。通过比较这些数据,我们发现Elo 能够相对较好地预测胜率。这意味着,如果你想知道哪种类型的人会赢,你只需要看一下它是否拥有高Elo排名。

未来的计划

LMSYS 组织计划在以下项目上开展工作:

添加更多闭源模型(ChatGPT-3.5 现已在匿名竞技场可用)

添加更多开源模型

发布定期更新的排行榜(例如,每月)

实施更好的采样算法、锦标赛机制和服务系统以支持更多模式。

提供不同任务类型细粒度排名。

希望大家能提出反馈,使我们的竞技场更加完善。如果你愿意为能够提供更好答案的一些匿名模式投票,那么你的贡献将会非常宝贵。你可以访问 https://arena.lmsys.org 进入我们的世界,为那些值得信赖的大师点赞。如果你想了解有关如何添加特定模块到这个竞技场指南,可以查看 https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model 或者直接点击链接进入演示界面:https: //arena.lmsys.org 排行榜页面:https: //leaderboard.lmsys.org GitHub地址:https://github.com/lm-sys/FastChat 使用 Google Colab 的笔记本查看最新信息:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 智能语音控制开关智能一体机全屋智能要多少钱人工智能有哪些典型应用什么叫智能网联汽车