超级模型决战LLM强者名单揭晓清华大学冲击冠军竟然排在第五

2025-02-24 智能 0

【CSDN 编者按】自GPT火遍全球以来，越来越多的开源大型语言模型涌现出来。LMSYS 组织（UC伯克利博士Lianmin Zheng牵头举办）为了评估这些模型的能力，创立了Chatbot Arena竞技场，让它们在匿名随机对抗中互相较量，并发布Elo等级排行榜。这个排行榜不仅定期更新，还鼓励社区成员贡献新模型，并通过投票帮助评估它们。

在这片竞技场上，大型语言模型们直接进行比拼，就像图1中的模型B完美回答问题，而模型A却答错了，遗憾退出比赛。在所有数据中，我们还看到大多数用户提示都是英语，这体现了当前技术领域的一个趋势。

玩家的评分可以在每场战斗后线性更新。假设玩家A（拥有Rating Ra）被预期得分 Ea 但实际得分 Sa 更新玩家评分的公式是：

使用收集到的数据，计算该笔记本中各个模型的Elo评分，并将主要结果放在表1中。欢迎大家尝试自己使用投票数据来计算评分。不过，由于隐私和病毒等担忧，对话历史并没有公开放出，只有投票结果。

双赢率作为校准基础,LMSYS 组织还展示了锦标赛中每个模式成对获胜率（图4），以及使用Elo评价算出的预测成对获胜率（图5）。通过比较数据，我们发现Elo评价算法能很好地预测胜率。

接下来，LMSYS 组织计划开展以下工作：

添加更多闭源模块，如ChatGPT-3.5已经可用于匿名竞技场。

增加更多开源模块。

发布定期更新的排行榜，每月一次。

实施更好的采样算法、锦标赛机制和服务系统，以支持更多模块。

提供不同任务类型细粒度排名。

希望所有用户能提供反馈，以使竞技场变得更好。LMSYS 组织邀请整个社区加入这项基准测试工作，可以贡献自己的模块，并为提供更好答案的匿名模块投票。如果想查看特定模块，可以按照指南添加它。此外，还可以访问演示页面、查看排行榜，以及参与GitHub项目和Colab笔记本上的相关活动。

标签：智能家电、人工智能ai公司排行榜、智能家居行业现状及前景分析、智能遥控器官方下载、 ai绘画

上一篇：电车降价难供应链企业转投燃油车国产电车如何应对

下一篇：500l搪瓷反应釜搅拌尺寸-搪瓷大容量反应釜的优异搅拌性能与尺寸选择指南

超级模型决战LLM强者名单揭晓清华大学冲击冠军竟然排在第五

精美居家探索设计好的装修公司的秘诀

住小帮我是你小区的超级助手

去百度面试 Java 后端的一次面试经历

现场总线技术心得体会TE为你量身打造的连接神器万种需求一应俱全

梦幻航海佳期如梦之海上繁花番外合集浪漫风景下的奇遇与故事