湖北科技学院逆袭之旅LLM大模型决战中意外英雄崛起震惊全场

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量如雨后春笋般增长。为了评估这些模型的性能，LMSYS组织（UC伯克利博士Lianmin Zheng带领）创立了Chatbot Arena竞技场，这里通过匿名随机对战来考验它们，并公布Elo等级排行榜，以期鼓励更多开发者贡献自己的模型，并参与投票。作者 LMSYS 组织

译者｜陈静琳责编屠敏

出品 CSDN（ID：CSDNnews）

在这座虚拟的竞技场内，大型语言模型们正进行着激烈的较量，就像一场不屈不挠的战斗，每一次回合都可能决定胜败。大多数用户提示是以英语为主，这反映出当前技术发展中的一个现实——英语作为国际交流和技术传播的主要媒介。

每一场比赛结束后，玩家的评分都会根据线性公式更新。如果某个玩家预计会得分 Ea，但实际得分 Sa 不符合预期，那么他的评分 Ra 就会发生变化。这意味着，每一次与其他模型对话，都能提升或降低一个模型在排行榜上的位置。

表 1 中展示了使用收集到的数据计算出的该笔记本中各个模型的 Elo 评分。读者也可以尝试使用投票数据自己计算这个过程，因为所有数据都公开可供参考，只不过没有包含对话历史，因为公开对话历史可能涉及隐私和病毒问题。

除了双赢率之外，LMSYS组织还展示了锦标赛中每个模型成对获胜率以及使用Elo评级估算后的预测成对获胜率。在图 4 和图 5 中，我们可以看到Elo评级如何准确地预测了未来比赛结果。

未来工作计划包括：

添加更多闭源模式，如ChatGPT-3.5已经加入匿名竞技场。

增加支持不同任务类型细粒度排名。

实施更好的采样算法、锦标赛机制和服务系统以支持更多模型。

发布定期更新排行榜，如每月更新。

希望所有用户能提供反馈，让这个平台变得更加完善。LMSYS组织邀请社区成员贡献他们自己的模块并为那些提供更好答案的匿名模块投票。这是一个开放式项目，你可以访问https://arena.lmsys.org来参与其中。如果你想将特定的模块添加到竞技场，可以按照指南https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model进行操作。

演示：https: //arena.lmsys.org

排行榜：https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

Colab 笔记本：https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：科技行业资讯

上一篇：oppo系列手机新贵亮相水蓝色Find X5 Pro天玑版在自然之美中开启首销

下一篇：如何进行化工卫生阀的日常维护

湖北科技学院逆袭之旅LLM大模型决战中意外英雄崛起震惊全场

罗技G435无线游戏耳机体验探索数码印刷与普通印刷在社会中的差异

灭菌锅的特种设备身份探究

耐腐蚀性能卓越的工业管材选型指南

离心萃取器-高效分离技术的精髓

股票市场分析-深度剖析三一重工股票行情走势与投资潜力