当前位置: 首页 - 智能 - 智能时代大模型决战LLM排行榜揭晓清华惊人逆袭登顶第五

智能时代大模型决战LLM排行榜揭晓清华惊人逆袭登顶第五

2025-02-24 智能 0

在智能时代的大模型竞技场中,LMSYS 组织发起了一场史无前例的战斗——Chatbot Arena。这个匿名、随机的对抗平台旨在评估和排名各种流行的大型语言模型。自GPT爆火以来,这个领域迅速发展,导致了开源大型语言模型的泛滥。为了解决这一问题,LMSYS 组织通过建立一个竞技场,让这些模型们直接进行比拼。

在这个竞技场中,每个模型都被赋予一个Elo等级,这个等级会根据每次战斗中的表现线性更新。当一个玩家(即大型语言模型)被期望得分但实际得分低于预期时,他们的Elo等级就会下降;相反,如果他们超过预期,那么他们的等级就会上升。

使用收集到的数据,计算了该笔记本中各个模型的Elo评分,并将主要结果放在表1中。欢迎大家自己尝试使用投票数据来计算评分。此外,由于公开对话历史可能引起隐私和病毒传播的问题,因此只包含投票结果,没有对话历史。

除了展示每个单一匹配双方获胜率以外,LMSYS 组织还展示了锦标赛中每个模式成对获胜率以及使用Elo评级估算的预测成对获胜率。这两张图(图4与图5)显示出Elo评级可以较好地预测胜率。

未来计划包括添加更多闭源和开源大型语言模型,以及发布定期更新排行榜。在此基础上,还将实施更好的采样算法、锦标赛机制和服务系统,以支持更多参与者提供不同任务类型细粒度排名。如果你有任何反馈或想贡献你的自己的大型语言模型,你可以访问https://arena.lmsys.org进行投票或者按照指南添加它到竞技场。你也可以查看特定模式如何工作以及其表现如何,在演示页面https://arena.lmsys.org查看详细信息,或是查阅排行榜位于https://leaderboard.lmsys.org所有相关信息均可通过GitHub: https://github.com/lm-sys/FastChat获取。而Colab 笔记本则位于:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 中国人工智能人工智能ppt演讲人工智能就业太难了吧人工智能专业出来干啥aqara智能家居官网