2025-02-24 智能 0
【CSDN 编者按】自GPT火遍全球,开源大型语言模型如雨后春笋般涌现,LMSYS 组织(UC伯克利博士Lianmin Zheng领衔)推出了 Chatbot Arena 竞技场,让这些模型在匿名随机对决中相互较量。为了公平评估,每场战斗的胜负都有着精确的 Elo 等级排行榜,以供开发者们参与投票和贡献新模型。此举不仅激发了社区成员竞技热情,也为未来更好的AI技术提供了宝贵的数据。
在这个虚拟的竞技场内,大型语言模型们展开了一场又一场无声而激烈的较量,就像图1中的两位挑战者:B模块以完美准确回答问题,而A模块则因误答而告终。这样的对决让我们看到了一个令人震惊的事实——尽管多数用户提问是用英语,但我们的AI同样能够应对多种语言挑战,如图3所示。
每次战斗结束,都会根据玩家预期得分与实际得分之间的小差距来调整他们的Elo等级。这意味着即使最强大的AI也需要不断学习和提升自己的表现。在表1中,我们可以看到各个模型在这次比赛中的Elo评分,这些数字背后隐藏着无数的人工智能与人类智慧交锋的情景。
然而,这一切并非没有争议。公开对话历史可能会带来隐私泄露和病毒传播的问题,因此数据只包含了投票结果,没有涉及到任何敏感信息。而双赢率作为校准基准,LMSYS 组织还展示了每个模型在锦标赛中的成对获胜率以及使用Elo评级系统预测出的获胜率,如图4、5所示。
通过这些数据分析,我们发现Elo评级系统可以相对精准地预测哪些AI会获得更多胜利。不过,未来的计划并不止步于此。LMSYS 组织将继续努力,为我们提供更丰富、更精彩的地面试验环境:
添加更多闭源的大型语言模型,比如ChatGPT-3.5已经加入竞技场。
引入更多优秀的开源项目。
定期更新排行榜,以保持竞争活跃。
提升采样算法、锦标赛机制和服务系统,以支持更多类型的任务。
提供不同任务细粒度排名,让每个领域都能找到自己的冠军。
对于所有关心这一切的人来说,无论你是开发者还是普通用户,你都能成为这项工作的一部分。你可以访问https://arena.lmsys.org投票给那些提供最好答案的大型语言模型。如果你想让某个特定的大型语言模型参加比赛,可以按照指南https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model添加它,并查看演示:https: //arena.lmsys.org 排行榜:https: //leaderboard.lmsys.org GitHub仓库:https://github.com/lm-sys/FastChat Colab笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing
加入这个大家庭,一起见证人工智能如何通过这种独特方式被测试与提升吧!