我把科技上交国家LLM大模型风云榜出炉清华冲击冠军竟然只排第五

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球，开源大型语言模型如雨后春笋般涌现，LMSYS 组织（UC伯克利博士Lianmin Zheng领衔）推出了 Chatbot Arena 竞技场平台，让这些模型在匿名随机对决中评估其能力，并发布Elo 等级排行榜。社区成员可以贡献更多模型，参与投票，以共同提升竞技场的水平。今天，我们将探索这个充满激情和技术挑战的世界，看看谁能成为最强大的语言模型。

在Chatbot Arena，这些大型语言模型就像武林高手一样，一场一场地进行着较量。每个战斗都是一次精彩纷呈的对决，就像图1中的比赛那样：Model B 准确无误，而Model A 却不幸落败。

数据显示，大多数用户使用的是英语，这反映了全球化背景下英语的地位。在这里，每个玩家都会根据自己的表现不断更新他们的评分。公式简单而直接：如果一个玩家预期会赢得 Ea 分数，但实际上只获得 Sa 分数，那么他们就会得到一个新的 Rating Ra。

表1 中展示了使用收集到的数据计算出的各个笔记本中模型 Elo 评分。如果你也想尝试用投票数据来计算评分，你完全可以自己动手。这份数据仅包含了投票结果，没有包含任何对话历史，因为公开对话可能会带来隐私泄露或病毒传播的问题。不过，即使如此，双赢率依然是衡量胜率的一个重要指标。

通过分析每个模型在非平局战斗中的获胜率（如图4所示），以及它们使用 Elo 评级预测未来的获胜率（如图5所示），我们发现Elo 评级是一个相对准确的预测工具，它能够很好地捕捉到每个模型之间实力的差距。

未来,LMSYS 组织计划继续扩展竞技场，使之变得更加丰富多彩：

添加闭源模型，如ChatGPT-3.5

引入更多开源项目

定期更新排行榜

改进采样算法、锦标赛规则和服务系统以支持更多参与者

提供更细致的任务类型排名

为了让竞技场更加完善，他们正在邀请全体社区成员贡献自己的作品，并为那些提供最佳答案的匿名模块投票。你也可以加入这项工作！访问 https://arena.lmsys.org 投票支持你认为最棒的大师；如果你想要添加特定的模块，请按照指南操作 https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model。

要查看最新排名或了解更多信息，请访问以下链接：

https: //leaderboard.lmsys.org (排行榜)

https: //github.com/lm-sys/FastChat (GitHub)

https: //colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing (Colab 笔记本)

标签：科技行业资讯

上一篇：豹有乾崑智勇双全方程豹豹5智驾版正式发布

下一篇：制药工艺中的关键仪器精准制造与安全监控的双重奏鸣

我把科技上交国家LLM大模型风云榜出炉清华冲击冠军竟然只排第五

MTK手机新希望OriginOS Ocean引领社会潮流带来全新视觉交互体验和底层优化

手机排行榜2022前十名最新性价比配还是不配工信部回应手机厂商不配充电器问题

如何利用客厅装修样板图创造完美的居家氛围

手机摄影学院解锁iPhone时光之谜

特斯拉智驾选择难32万增强版与FSD哪个更值