2025-01-11 科技 0
编辑:好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛!
这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。OpenAI GPT-4OpenAI GPT-3.5-turboAnthropic Claude-v1RWKV-4-Raven-14B(开源)毫无疑问,只要GPT-4参战,必定是稳居第一。
不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。
相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。
而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第六——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。
从胜率图来看,我们可以看到,在66场非平局A vs B对战中,其中Claude赢得32场比赛,这意味着它在48%的情况下取胜,而对于剩下的52%情况,它或许需要再加油一下。
然而,对于其他开源模型与这三个专有模式之间存在很大的差距,这一点我们不能忽视。特别是,在Elo分数方面,我们发现GPT-4以1274分领跑排行榜,比榜单上最好的开源替代——Vicuna—13B高出了近200分。在去掉平局后,与Vicuna—13B对战时,GPT—4赢得82% 的比赛,并且在与前一代GPT—3.5-turbo对战时,也能取得79% 的胜率。
值得注意的是,不同于专有模式,其余开放式模块通常具有较少参数范围为30亿至140亿之间。此外,由于LLM和数据策划领域最近取得显著进展,使使用较小型模块获得性能提升成为可能,如谷歌最新PaLM 2所展示。
因此,对于开放式语言模块追赶这一趋势充满乐观。尽管目前还无法预测何时会出现翻转,但基于样本随机性,有时候甚至能复刻类似的答案。而且,因为提示、采样参数或未知因素等不同点,当通过OpenAI API和ChatGPT接口使用时,即使是相同问题解答也不尽相同。
最后,还有一些用户更倾向于选择Claude而不是GTP—4。这表明即便两者都拥有惊人的能力,但处理复杂推理问题仍然面临挑战。在一些简单问题中,如处理并不需要复杂推理或知识的问题,就可以用如Vicuna这样的开放式模块与之匹敌,因此我们可能考虑用稍微弱一些但更小或者价格更低的大型语言模块来替代像GTP—4这样更强大的模式。
自从三个强大的专有模式加入竞技以来,该聊天机器人竞技场内激烈程度从未如此高涨。而由于参与对决中的败北导致其Elo分数下降,因此那些输掉许多比赛给予它们Elo成绩减少。未来计划允许用户注册自己的聊天机器人参加排位赛,以进一步扩展这个平台。