科技部高新技术司雷鹏显示领域硝烟四起清华惊现第五强LLM大模型之战激烈展开

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量激增。为了评估这些模型的性能，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头）创立了Chatbot Arena竞技场，这里通过匿名随机对抗来评估它们，并发布Elo等级排行榜。社区成员可以贡献新模型、参与投票，共同决定哪个是最强大的。

在这个竞技场中，每次比赛都是一场精彩纷呈的对决，如同图1所示，模型B以正确答案击败了失误的模型A。在所有数据中，我们发现英语占据绝大多数，这如同图3所展示的一样。

玩家们的表现会在每场比赛结束后线性更新，其公式为：Ra + Ka * (Sa - Ea) / 2，其中Ra是初始排名,Ea和Sa分别是预期和实际得分。我们使用收集到的数据计算了笔记本中的模型Elo评价，并将结果列于表1中，你也可以尝试使用投票数据自己计算评价。

除了双赢率外，组织还展示了每个模型在锦标赛中的成对获胜率（如图4）以及使用Elo评价预测成对获胜率（如图5）。通过比较，我们发现Elo评价能够较好地预测胜负。

未来计划包括添加更多闭源和开源模型、定期更新排行榜、改善采样算法与服务系统，以及提供不同任务细粒度排名。如果你有任何反馈或想加入这项基准测试，请访问https://arena.lmsys.org进行投票。你也可以按照指南https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model添加特定模型到竞技场上查看。

演示：https: //arena.lmsys.org

排行榜：https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

Colab 笔记本：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：科技行业资讯

上一篇：科学界大决战LLM强者名单揭晓清华大学冲击冠军竟仅落后三分之一

下一篇：丝接管件 - 精密连接丝接管件的关键作用与应用探究

科技部高新技术司雷鹏显示领域硝烟四起清华惊现第五强LLM大模型之战激烈展开

蔚来法务部严正声明网络账号老七发布不实微博误导公众

笑忘书txt新浪我在网上找到了笑忘书的最新章节这下子我可以继续追那段精彩的故事了

探秘森山大道背后的故事

从几百元到上万元是否真有如此天差地别探秘可穿戴健康设备的巨大价差

极氪领克整合大揭秘安聪慧详解双品牌协同与未来战略