中国科学技术协会揭秘LLM大模型之战清华惊人逆袭登顶第五

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球，开源大型语言模型如雨后春笋般涌现，LMSYS 组织（UC伯克利博士Lianmin Zheng领衔）应运而生Chatbot Arena 基准平台，以匿名随机竞赛评估他们，并发布Elo 排行榜。至今仍在定期更新，期待更多用户贡献模型，参与投票。作者 LMSYS 组织

译者｜陈静琳责编屠敏

出品 CSDN（ID：CSDNnews）

开源大模型的热潮不断升温？

LMSYS Org 创造了一个独特的竞技场，让这些大型语言模型在不透露身份的情况下进行无数次对决，每一次胜出都能攀升到排行榜顶端。社区成员们也被邀请加入这项工作，不仅可以贡献新的模型，还能参与提问和投票来评价它们，这样的战斗谁会是最后的冠军？

图 1：就像这样，大型语言模型们直接展开较量。

图 3：前 15 种语言使用情况显示英语占据主导地位。

玩家的评分将在每场比赛结束后实时更新。如果玩家 A 拥有 Rating Ra，但实际得分 Sa 与预期 Ea 不符，其评分就会根据以下公式进行调整：

[Ra' = Ra + K * (Sa - Ea)]

利用收集到的数据，我们计算出了笔记本中各个模型的 Elo 评分，并将结果汇总于表格中供大家参考。此外，我们鼓励大家尝试使用投票数据来重新计算每个模型的评级，因为我们的数据库只包含了最终投票结果，而没有记录对话历史，以避免隐私泄露和病毒传播等风险。

双赢率作为校准指标，LMSYS 组织还展示了每个参赛者的成对获胜率，以及通过 Elo 系统预测未来的获胜概率，如图4和5所示。这一分析揭示了Elo 系统能够相对精确地预测未来比赛结果。

图 4：表现优异的大型语言模型A，在所有非平局A与B之间战绩统计。

图 5：基于Elo系统预测的大型语言模式A未来的成功概率。

未来规划：

添加闭源版本，如ChatGPT-3.5已被纳入匿名竞技场。

增加开放来源的大型语言模式支持。

定期更新排行榜，每月至少一次新排名公布。

提高服务质量、采样算法及锦标赛规则以支持更多参与者加入游戏环境。

为不同任务类型提供更细致的地面层级排名功能，以满足用户需求并提升整体体验。

我们诚挚邀请您分享您的宝贵反馈，使这个基准测试平台变得更加完善。如果您愿意贡献自己的模块或为那些提供卓越答案的小伙伴投上赞手，可以访问 https://arena.lmsys.org 进行操作。而对于想要查看特定模块详情的人们，只需按照指南（https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model）添加其即可实现这一目的。

演示页面地址: https://arena.lmsys.org

最新排行榜查询: https://leaderboard.lmsys.org

GitHub 订阅: https://github.com/lm-sys/FastChat

Google Colab 笔记本下载链接: https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：人工智能目前发展现状、智能监控多少钱一台、中国机器人公司排名榜、虚拟人工智能聊天app 、中国智能制造的现状

上一篇：水质检测-深入解析TDS水质检测标准的具体数值及其重要性

下一篇：反应釜拆卸指南

中国科学技术协会揭秘LLM大模型之战清华惊人逆袭登顶第五

小型污水处理一体化设备绿色环保的智慧选择

处钕膜被捅图片我看了那张照片真是心惊胆战的

化工丸剂机械的技术进步与应用前景

井水检测-一滴水的考验揭秘井水检测一次费用

PE管管材批发厂家专注于高品质的塑料输送解决方案