当前位置: 首页 - 行业资讯 - 未来科技绘画大师誓战LLM排行榜揭晓清华奇迹般跃居第五

未来科技绘画大师誓战LLM排行榜揭晓清华奇迹般跃居第五

2025-02-24 行业资讯 0

未来科技绘画大师之争!LMSYS 组织的 Chatbot Arena 竞技场揭晓,清华大学意外登顶第五名!自GPT爆红以来,大型语言模型如潮水般涌现,而LMSYS 组织却在这浪潮中站出来,用匿名随机对决来评估这些模型,并公布Elo 等级排行榜,这个竞技场不仅定期更新,还邀请社区参与贡献新模型和投票。

在这个奇妙的竞技场中,大型语言模型们就像勇士一样相遇,它们通过回答问题或进行对话来展示自己的能力。比如,图1展示了两个模型之间的较量,其中一个完美地提供了正确答案,而另一个则出现失误,从而被淘汰出局。

除了直接的对决,更有趣的是数据分析。在所有数据中,我们发现英语是最受欢迎的提示语言(见图3),玩家可以根据每次战斗后线性更新其评分。具体来说,如果预计得分与实际得分存在差异,公式如下:

使用收集到的数据,计算了该笔记本中模型的 Elo 评分,并将主要结果放在表1 中供大家参考。值得一提的是,只有投票结果被收录,没有对话历史,因为公开对话可能会引起隐私和病毒等安全问题。而双赢率作为校准基准,组织还展示了每个模型在锦标赛中的成对获胜率(见图4)以及使用Elo 评级预测成对获胜率(见图5)。研究发现,Elo 评级能够相对于较好地预测胜率。

未来计划包括添加更多闭源和开源模型、定期发布排行榜、改进采样算法及服务系统以支持更多加入,以及提供不同任务类型细粒度排名。LMSYS 组织期待着来自各位用户关于如何使竞技场更好的反馈,并鼓励社区成员贡献自己拥有的模型并为那些能提供更优质答案的匿名模式投票。

访问 https://arena.lmsys.org 来参与这一伟大的基准测试工作。如果你想查看特定模式,可以按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)来添加它。此外,不要忘记关注演示:https: //arena.lmsys.org 排行榜:https: //leaderboard.lmsys.org GitHub:https://github.com/lm-sys/FastChat 和 Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签: 科技行业资讯