当前位置：首页 - 智能 - 浙江工商大学逆袭之旅LLM大模型战场上夺得光芒

浙江工商大学逆袭之旅LLM大模型战场上夺得光芒

2025-02-24 智能 0

【CSDN 编者按】自GPT爆火之后，当下流行的开源大型语言模型越来越多，LMSYS 组织（UC伯克利博士Lianmin Zheng牵头举办）建立了 Chatbot Arena 基准平台通过匿名随机竞争来评估他们，随后发布Elo 等级排行榜，排行榜至现在仍在定期更新，期待更多的用户贡献模型，进行投票，开发者们也可以参与进来！作者 LMSYS 组织

译者｜陈静琳责编屠敏

出品 CSDN（ID：CSDNnews）

开源大模型太多？

LMSYS Org 直接建立了一个竞技场，以众包方式让他们匿名、随机的进行对抗，形成排行榜。并邀请整个社区加入这项工作，贡献新模型，所有人都可以参与提问和投票来评估它们。

图 3：前 15 种语言的战斗计数

有趣的是，在所有数据中描绘了语言分布，大部分用户提示都是英语。

玩家的评分可以在每场战斗后线性更新。假设玩家 A（具有 Rating Ra）被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是：

使用收集到的数据，我们计算了该笔记本中模型的 Elo 评分，并将主要结果放在表 1 中。欢迎大家自己尝试使用投票数据来计算评分。并且，我们只包含投票结果，没有对话历史，因为公开对话历史会引起隐私和病毒等担忧。

双赢率作为校准的基础，我们还展示了锦标赛中每个模型成对获胜率以及使用 Elo 预测成对获胜率。在比较这些数据时发现,Elo 能够相对较好地预测胜率。

未来计划：

添加更多闭源模型（ChatGPT-3.5 现已在匿名竞技场可用）

添加更多开源模型

发布定期更新排行榜（例如，每月）

实施更好的采样算法、锦标赛机制和服务系统以支持更多模型

提供不同任务类型细粒度排名

我们希望能够从您那里得到反馈，以使我们的竞技场变得更好。如果您愿意，可以访问 https://arena.lmsys.org 投票为那些能提供更好答案的匿名模型。如果想在竞技场中查看特定模式，请按照指南添加它。

演示：https: //arena.lmsys.org

排行榜：https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

Colab 笔记本：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：人工智能包括什么技术、智能的四个特征、智能化包括哪些方面、人工智能类专业有哪些、免费的手机遥控器软件

上一篇：不锈钢管规格型号详解从直径到壁厚了解一切

下一篇：早新闻人工智能的现状与未来在哪特斯拉AI日活动举办九大芯片厂库存创新高

相关推荐

推荐资讯

热门文章