未来科技大决战LLM强者名单揭晓清华学府惊人逆袭登顶五强行列

2025-02-24 行业资讯 0

【未来科技大决战】：LMSYS Org 引领开源大模型竞技，清华学府惊人逆袭登顶五强行列！

自GPT爆火之后，当下流行的开源大型语言模型越来越多。为了评估和比较这些模型的性能，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头举办）建立了 Chatbot Arena 基准平台。通过匿名随机竞争，这个平台评估了他们，并发布Elo 等级排行榜。这份排行榜至今仍在定期更新，期待更多的用户贡献模型，进行投票，开发者们也可以参与进来！

在这个Chatbot Arena 中，大量的开源和闭源语言模型都被邀请参加战斗，每一场战斗都是匿名、随机进行。在这里，你会看到各种各样的对抗，就像图1中所展示的一样，那里有一个胜出而另一个落败的情况发生。

除了直接对比，还有更深入的地图展现了整个数据集中的语言分布情况，如图 3 所示，我们可以看出绝大部分提示都是使用英语。

玩家的评分会在每场战斗后线性更新，其公式是：

Ra + Ka * (Sa - Ea)

使用收集到的数据计算并将主要结果放在表 1 中。欢迎大家自己尝试使用投票数据来计算评分。

此外，由于公开对话历史可能引发隐私和病毒等问题，因此只包含投票结果，没有对话历史。此外，双赢率作为校准的基础，还展示了锦标赛中每个模型的成对获胜率（如图4），以及根据Elo 评价系统预测成对获胜率（如图5）。通过比较这些数据，我们发现Elo 评价系统能够相对于较好地预测胜率。

未来的计划包括添加更多闭源和开源模型，加强服务系统以支持更多模型，以及提供不同任务类型细粒度排名。如果你想加入这项基准测试工作，可以访问https://arena.lmsys.org为能提供更好答案的匿名模型投票。你还可以按照指南添加特定模块到竞技场中。

演示地址：https: //arena.lmsys.org

排行榜地址：https: //leaderboard.lmsys.org

GitHub 地址：https://github.com/lm-sys/FastChat

Colab 笔记本地址：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：科技行业资讯

上一篇：苹果iPhone7 Plus 美版上海售4750元vivo忘记密码了怎么强制刷机

下一篇：电蒸汽发生器蒸箱-高效利用水能电蒸汽发生器蒸箱的设计与应用

未来科技大决战LLM强者名单揭晓清华学府惊人逆袭登顶五强行列

Kindle推出青春版泡面套餐既能涨姿势还能盖泡面你准备好和数码宝贝ol一起享受这场冒险了吗

上证指数股票我是如何从3000点逆袭到5000点的

逆城市污染潮流探索智能家居中的智能传感器与自动控制系统在利用大规模生产用于个性化定制小型住宅和公寓建

生物学-探究细胞膜结构与功能的关键膜及膜组件

燕舞翩翩起舞国模燕子的生态保护与文化价值