当前位置: 首页 - 智能 - AI霸王争霸LLM强势对决清华奇迹登第五

AI霸王争霸LLM强势对决清华奇迹登第五

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来,开源大型语言模型的数量激增。为了评估这些模型的性能,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头)创立了Chatbot Arena竞技场,这里通过匿名随机对决来测试它们,并定期发布Elo排行榜。社区成员可以贡献新模型、投票和提问,以评估这些AI之战谁才是真正的冠军!

在这个竞技场中,大型语言模型们直接进行一对一的比拼,就像图1中展示的一样,某个名为B的模型回答问题得分满分,而另一个名为A的模型却因错误而落败。

除了比赛成绩,还有数据显示了用户使用的大多数语言是英语,如图3所示。

玩家的评分会在每场战斗后线性更新,用公式Ra + Ka * (Sa - Ea)计算,其中Ra是当前评分,Ka是权重参数,Sa和Ea分别代表实际和预期得分。

根据收集到的数据,我们计算了该笔记本中的模型Elo排名,并将结果放在表1中。欢迎大家自己尝试使用投票数据来计算这些AI们的实力。

由于公开对话历史可能涉及隐私和病毒等风险,这些数据仅包含投票结果,没有提供对话记录双赢率作为校准基础,每个模型都展示了在锦标赛中的成对获胜率(如图4),以及使用Elo系统预测成对获胜率(如图5)。通过比较两者的差异,我们发现Elo系统能够较好地预测哪个AI更强大。

未来计划包括:

添加更多闭源AI(如ChatGPT-3.5)

加入更多开源AI

定期更新排行榜

改善采样算法、锦标赛机制和服务系统以支持更多参与者

提供不同任务类型细粒度排名

我们期待所有用户能提供反馈,让这项基准测试变得更加完善。如果你想加入这项工作,可以访问https://arena.lmsys.org,为那些能给出更好答案的匿名AI投票。如果你想在竞技场查看特定AI,只需按照指南添加它。

演示:https: //arena.lmsys.org

排行榜:https: //leaderboard.lmsys.org

GitHub:https://github.com/lm-sys/FastChat

标签: 手机不带红外线怎么万能遥控云起智能家居人工智能是否会取代人类智能家居控制系统怎样布线智能家居市场调研报告