当前位置: 首页 - 行业资讯 - 科技部高新技术司雷鹏显示领域硝烟四起清华惊现第五强LLM大模型之战激烈展开

科技部高新技术司雷鹏显示领域硝烟四起清华惊现第五强LLM大模型之战激烈展开

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。为了评估这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创立了Chatbot Arena竞技场,这里通过匿名随机对抗来评估它们,并发布Elo等级排行榜。社区成员可以贡献新模型、参与投票,共同决定哪个是最强大的。

在这个竞技场中,每次比赛都是一场精彩纷呈的对决,如同图1所示,模型B以正确答案击败了失误的模型A。在所有数据中,我们发现英语占据绝大多数,这如同图3所展示的一样。

玩家们的表现会在每场比赛结束后线性更新,其公式为:Ra + Ka * (Sa - Ea) / 2,其中Ra是初始排名,Ea和Sa分别是预期和实际得分。我们使用收集到的数据计算了笔记本中的模型Elo评价,并将结果列于表1中,你也可以尝试使用投票数据自己计算评价。

除了双赢率外,组织还展示了每个模型在锦标赛中的成对获胜率(如图4)以及使用Elo评价预测成对获胜率(如图5)。通过比较,我们发现Elo评价能够较好地预测胜负。

未来计划包括添加更多闭源和开源模型、定期更新排行榜、改善采样算法与服务系统,以及提供不同任务细粒度排名。如果你有任何反馈或想加入这项基准测试,请访问https://arena.lmsys.org进行投票。你也可以按照指南https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model添加特定模型到竞技场上查看。

演示:https: //arena.lmsys.org

排行榜:https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 科技行业资讯