当前位置：首页 - 智能 - AI霸王争霸LLM强势对决清华奇迹登第五

AI霸王争霸LLM强势对决清华奇迹登第五

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量激增。为了评估这些模型的性能，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头）创立了Chatbot Arena竞技场，这里通过匿名随机对决来测试它们，并定期发布Elo排行榜。社区成员可以贡献新模型、投票和提问，以评估这些AI之战谁才是真正的冠军！

在这个竞技场中，大型语言模型们直接进行一对一的比拼，就像图1中展示的一样，某个名为B的模型回答问题得分满分，而另一个名为A的模型却因错误而落败。

除了比赛成绩，还有数据显示了用户使用的大多数语言是英语，如图3所示。

玩家的评分会在每场战斗后线性更新，用公式Ra + Ka * (Sa - Ea)计算，其中Ra是当前评分，Ka是权重参数，Sa和Ea分别代表实际和预期得分。

根据收集到的数据，我们计算了该笔记本中的模型Elo排名，并将结果放在表1中。欢迎大家自己尝试使用投票数据来计算这些AI们的实力。

由于公开对话历史可能涉及隐私和病毒等风险，这些数据仅包含投票结果，没有提供对话记录双赢率作为校准基础，每个模型都展示了在锦标赛中的成对获胜率（如图4），以及使用Elo系统预测成对获胜率（如图5）。通过比较两者的差异，我们发现Elo系统能够较好地预测哪个AI更强大。

未来计划包括：

添加更多闭源AI（如ChatGPT-3.5）

加入更多开源AI

定期更新排行榜

改善采样算法、锦标赛机制和服务系统以支持更多参与者

提供不同任务类型细粒度排名

我们期待所有用户能提供反馈，让这项基准测试变得更加完善。如果你想加入这项工作，可以访问https://arena.lmsys.org，为那些能给出更好答案的匿名AI投票。如果你想在竞技场查看特定AI，只需按照指南添加它。

演示：https: //arena.lmsys.org

排行榜：https: //leaderboard.lmsys.org

GitHub：https://github.com/lm-sys/FastChat

标签：手机不带红外线怎么万能遥控、云起智能家居、人工智能是否会取代人类、智能家居控制系统怎样布线、智能家居市场调研报告

上一篇：20岁女RAPPERDISSSUBS免费-韵律革命20岁女Rapper的DISS与SUBS自由之歌

下一篇：ppp管材型号详尽列表专业品质的管材选择

相关推荐

推荐资讯

热门文章