当前位置: 首页 - 智能 - 超级模型决战LLM强者名单揭晓清华大学冲击冠军竟然排在第五

超级模型决战LLM强者名单揭晓清华大学冲击冠军竟然排在第五

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来,越来越多的开源大型语言模型涌现出来。LMSYS 组织(UC伯克利博士Lianmin Zheng牵头举办)为了评估这些模型的能力,创立了Chatbot Arena竞技场,让它们在匿名随机对抗中互相较量,并发布Elo等级排行榜。这个排行榜不仅定期更新,还鼓励社区成员贡献新模型,并通过投票帮助评估它们。

在这片竞技场上,大型语言模型们直接进行比拼,就像图1中的模型B完美回答问题,而模型A却答错了,遗憾退出比赛。在所有数据中,我们还看到大多数用户提示都是英语,这体现了当前技术领域的一个趋势。

玩家的评分可以在每场战斗后线性更新。假设玩家A(拥有Rating Ra)被预期得分 Ea 但实际得分 Sa 更新玩家评分的公式是:

使用收集到的数据,计算该笔记本中各个模型的Elo评分,并将主要结果放在表1中。欢迎大家尝试自己使用投票数据来计算评分。不过,由于隐私和病毒等担忧,对话历史并没有公开放出,只有投票结果。

双赢率作为校准基础,LMSYS 组织还展示了锦标赛中每个模式成对获胜率(图4),以及使用Elo评价算出的预测成对获胜率(图5)。通过比较数据,我们发现Elo评价算法能很好地预测胜率。

接下来,LMSYS 组织计划开展以下工作:

添加更多闭源模块,如ChatGPT-3.5已经可用于匿名竞技场。

增加更多开源模块。

发布定期更新的排行榜,每月一次。

实施更好的采样算法、锦标赛机制和服务系统,以支持更多模块。

提供不同任务类型细粒度排名。

希望所有用户能提供反馈,以使竞技场变得更好。LMSYS 组织邀请整个社区加入这项基准测试工作,可以贡献自己的模块,并为提供更好答案的匿名模块投票。如果想查看特定模块,可以按照指南添加它。此外,还可以访问演示页面、查看排行榜,以及参与GitHub项目和Colab笔记本上的相关活动。

标签: 智能家电人工智能ai公司排行榜智能家居行业现状及前景分析智能遥控器官方下载ai绘画