2025-02-24 智能 0
科技竞技场激烈对决!GPT火遍全球,开源大型语言模型如雨后春笋般涌现。LMSYS 组织(UC伯克利博士Lianmin Zheng领衔)应运而生,打造了Chatbot Arena,这个匿名随机竞赛平台,让众多模型在这里展开无形的较量。Elo 等级排行榜不仅定期更新,还邀请全民参与贡献新模型、投票评估,每个人都能成为这场技术盛宴中的选手。
图中一幕,如同战斗现场:模型 B 凝练正确答案,而模型 A 却显得迷茫失措,最终遗憾告负。这不是一次偶然的遭遇,而是长达数月的连续对决,每一次胜败都在玩家的评分中线性累积。
表 1 中,我们可以看到每一位参赛者在这个竞技场上的成就,被精确计算出的Elo 评分。数据显示,即使没有公开对话历史,但通过收集到的投票结果,我们依然能够准确预测每一个模型的获胜率。
双赢率作为校准标准,LMSYS 组织还展示了锦标赛中每个模型的成对获胜率和使用 Elo 评级预测的成对获胜率。在图4和5中,我们看到了这种预测与实际相符之处,为我们揭示出 Elo 评级系统真正的地位与作用。
未来规划上,除了增加闭源和开源模型外,还将推出定期更新排行榜,并实施更高效的人工智能算法、锦标赛机制以及服务体系,以支持更多类型的小型化大规模(小样本、大数据)的任务。此外,更细粒度排名也将成为未来的亮点之一。
最后,组织致力于提升用户体验,将开放反馈渠道,使整个社区参与进来,为匿名模块提供更好的答案。加入并投票只需访问 https://arena.lmsys.org。如果你想为你的最爱添加到竞技场,只需按照指南 https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model 来操作。
探索竞技场:https: //arena.lmsys.org
查看最新排行榜:https: //leaderboard.lmsys.org
关注 GitHub:https://github.com/lm-sys/FastChat
打开 Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing