当前位置: 首页 - 行业资讯 - 霎时震惊清华崛起LLM大模型竞技场巨轮排行榜出炉清华大学竟然雄踞第五科技界风云变幻学术山头争斗激烈每

霎时震惊清华崛起LLM大模型竞技场巨轮排行榜出炉清华大学竟然雄踞第五科技界风云变幻学术山头争斗激烈每

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球,开源大型语言模型如雨后春笋般涌现,LMSYS 组织(UC伯克利博士Lianmin Zheng领衔)应运而生Chatbot Arena 基准平台,以匿名随机竞技场的方式评估这些模型,并定期发布Elo 等级排行榜。期待更多用户贡献模型,进行投票,开发者们也可以参与其中!作者 LMSYS 组织

译者|陈静琳 责编 屠敏

出品 CSDN(ID:CSDNnews)

开源大模型太多?

LMSYS Org 建立了一个竞技场,让他们在匿名、随机的情况下对抗,每个胜出都有排名提升。并邀请整个社区加入这项工作,贡献新模型,让所有人都能参与提问和投票来评估它们,你心目中的 NO.1 是谁?

图 3:前 15 种语言的战斗计数

玩家的评分可以在每场战斗后线性更新。假设玩家 A(具有 Rating Ra)被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是:

使用收集到的数据,计算了该笔记本中模型的 Elo 评分,并将主要结果放在表 1 中。欢迎大家自己尝试使用投票数据来计算评分。

通过比较数据,我们发现 Elo 可以相对较好地预测胜率。

图 4:模型 A 在所有非平局 A 与 B 战斗中获胜的比例。

计划:

添加更多闭源模型(ChatGPT-3.5 现已在匿名竞技场可用)

添加更多开源模型

发布定期更新的排行榜(例如,每月)

实施更好的采样算法、锦标赛机制和服务系统以支持更多模型

提供不同任务类型的细粒度排名。

希望所有用户能进行反馈,以使竞技场变得更好。你现在就可以访问 https://arena.lmsys.org 为更好的答案给予你的赞赏。如果想在竞技场中查看特定模

标签: 科技行业资讯