2025-01-11 科技 0
编辑:好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛!
这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B(开源)毫无疑问,只要GPT-4参战,必定是稳居第一。
不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。
相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。
而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第六——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。
从胜率图来看,在66场非平局比赛中,其中32场(48%)由Claude赢得。所有非平局A vs B对战中,如果A获胜,则其胜率为:
然而,不同于此三巨头间激烈角逐,其余开源模型与之竞争仍存在显著差距。
特别是,以1274Elo分数领跑排行榜的大型专有LLM-GPT 4,比顶级开源替代品Vicuna 13B低出了近200分。在去掉平局后,与Vicuna对战时,它赢得82%;甚至与前代LLM-GPT 3.5-turbo对战时,也能拿下79%。
值得注意的是,这些在未来世界中的开放性技术通常拥有较少参数,大约在30亿至140亿之间。此外,由于最近取得在LLM和数据策划方面进展,使使用小型化机器人取得显著性能提升成为可能。
例如谷歌最新PaLM2即是一个极佳案例:我们知道PaLM2通过较小规模实现更好的性能。这使团队对于追赶并接近这些先进技术充满乐观。不知何时会发生翻盘?虽然Claude和GPT 4给出了类似的答案,但Claude提供了一点微妙上的优势。然而,由于采样随机性,这种情况不能总复制,有时候两者都能给出相同答案,但这次失败了一次。
此外,当使用OpenAI API或ChatGpt接口时,该行为略有不同,这可能是提示、采样参数或未知因素导致。但用户倾向于选择Claude而不是GPT 4的一个例子显示,即便如此,它们仍然挣扎处理推理问题,如下所示:
除了这些棘手的情况,还有一些并不需要复杂推理的问题。对于这些简单问题,如何许多弱一些但更小或经济实惠的大型语言模式能够匹敌如今市场上强大的专属设备?
由于参与三个强大专属设备后的竞技场,从未如此激烈,而它们输掉多个比赛,因此Elo成绩下降。最后,该团队计划开放API,让用户可以注册自己的聊天机器人进行排位赛参考资料:
https://lmsys.org/blog/2023年05月10日领导板