当前位置: 首页 - 智能 - 风力大战全球风能巨擘排行榜出炉清华冲击冠军宝座竟然只得第五名

风力大战全球风能巨擘排行榜出炉清华冲击冠军宝座竟然只得第五名

2025-02-24 智能 0

风力大模型竞技场:全球风能巨擘排行榜出炉,清华冲击冠军宝座,竟然只得第五名!

自GPT爆火之后,当下流行的开源大型语言模型越来越多,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头举办)建立了 Chatbot Arena 基准平台通过匿名随机竞争来评估他们,随后发布Elo 等级排行榜,排行榜至现在仍在定期更新,期待更多的用户贡献模型,进行投票,开发者们也可以参与进来!作者 LMSYS 组织

译者|陈静琳 责编 屠敏

出品 CSDN(ID:CSDNnews)

开源大模型太多?

LMSYS Org 直接建立了一个竞技场,以众包方式让他们匿名、随机的进行对抗,形成排行榜。并邀请整个社区加入这项工作,贡献新模型,每个人都可以参与提问和投票来评估它们,大有趣味。

图 1:前 15 种语言的战斗计数

在这个世界里,大型语言模型就像勇士一样,在战场上展现自己的力量。在这里,没有人知道你是谁,只要你的答案正确,你就是英雄;如果不幸地回答错误,那么你可能会被淘汰。

使用收集到的数据,我们计算了该笔记本中每个模型的 Elo 评分,并将主要结果放在表中。欢迎大家自己尝试使用投票数据来计算评分。我们只包含了投票结果,没有对话历史,因为公开对话历史会引起隐私和病毒等担忧。但是,我们还是展示了一些有趣的事实,比如双赢率作为校准的基础,以及每个模型在所有非平局 A 与 B 战斗中的获胜比例。

计划未来

LMSYS 组织计划在以下项目上开展工作:

添加更多闭源模型(ChatGPT-3.5 现已在匿名竞技场可用)

添加更多开源模型

发布定期更新的排行榜(例如,每月)

实施更好的采样算法、锦标赛机制和服务系统以支持更多模式

提供不同任务类型的细粒度排名。希望所有用户能进行反馈,以使竞技场变得更好。

演示:https: //arena.lmsys.org

排行榜:https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

标签: 实用型老人智能产品人工智能是什么?ai论文ai智能语音软件华为全屋智能