科技之战LLM巨擘竞技场清华突袭五强行列

2025-02-24 行业资讯 0

【CSDN 编者按】自GPT火遍全球以来，开源大型语言模型的数量如雨后春笋般增长。为了评估这些模型的性能，LMSYS组织（UC伯克利博士Lianmin Zheng带领）创立了Chatbot Arena，这是一个匿名、随机竞技场，让模型们在这里互相较量，以Elo等级排行榜为依据。这个平台不仅限于开发者和研究人员，也欢迎社区成员参与投票，为更好的答案提供支持。

在这个竞技场中，大型语言模型们就像武士一样，对战着，试图证明自己的实力。在每一场战斗中，都有胜者和败者，就像图1中的例子那样，Model B以其准确无误的回答而获得胜利，而Model A则因为错误而落败。

除了直接对抗，每个数据点都揭示了语言使用的分布情况，如图3所示，我们可以看到英语是最受欢迎的语言。这使得我们能够更好地理解不同用户群体之间如何进行交流。

玩家们根据每次战斗后的表现来更新他们的评分。如果一个玩家预期能赢，但实际上输掉了，那么他们就会失去一些分数。这种线性更新保证了排名系统的公平性。

通过收集到的数据，我们计算出了各个模型在笔记本上的Elo评分，并将结果展示给大家看（表1）。你也可以尝试使用投票数据来计算出自己的成绩，这是一种很好的学习机会。

由于公开对话可能会引起隐私问题或病毒传播的问题，我们只保留了投票结果，没有包含任何对话内容。但即便如此，双赢率仍然成为了我们评价比赛质量的一个重要指标。同时，我们还展示了每个模型在比赛中的成对获胜率（见图4），以及使用Elo评级算出的预测成对获胜率（见图5）。

通过比较这两组数据，我们发现Elo评级似乎能够很好地预测哪些模型会赢得更多比赛。这让我们对于未来的计划充满信心，即将添加更多闭源和开源的大型语言模型，以及定期发布更新排行榜，让整个社区都能参与进来，使我们的竞技场变得更加多样化和精彩。

我们的未来计划包括：

添加更多闭源的大型语言模型，比如ChatGPT-3.5，它已经可供匿名竞技场使用。

增加更多开源大型语言模块。

定期发布新的排行榜，以保持活跃度。

改善采样算法、锦标赛机制和服务系统，以支持更多类型的心智挑战任务。

提供细粒度排名，为不同的任务类型提供更精确的地位评价。

希望所有用户能积极反馈，以帮助我们完善这一基准测试平台。而且，如果你想贡献你的自己创建的大型语言模块，你可以按照指南进行操作，然后将它们提交到我们的开放平台上。你还可以访问https://arena.lmsys.org来查看最新动态并为你的最爱投票。如果你想了解具体如何添加新模式，请访问GitHub上的FastChat项目文档中的“How to add a new model”部分。在那里，你会找到详细说明及指导。

最后，不要忘记查看演示视频：https://arena.lmsys.org 排行榜：https://leaderboard.lmsys.org GitHub仓库：https://github.com/lm-sys/FastChat Colab笔记本：https: //colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：科技行业资讯

上一篇：深渊中的波纹tjh25型高效填料的秘密

下一篇：墨香与影踪tds笔的幻觉游戏

科技之战LLM巨擘竞技场清华突袭五强行列

装修梦变现揭秘公司背后的设计神秘

电流大冒险300元一天的水电英雄

松香水在美容护肤中的作用及其配方分享

混凝土结构工程的精益求精施工质量验收规范之探究

未来水电之梦逆境中绽放的绿色希望