2025-01-11 科技 0
编辑:好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛!
这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B(开源)毫无疑问,只要GPT-4参战,必定是稳居第一。
不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。
相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。
而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第六——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。
从胜率图来看,在66场非平局比赛中,其中32场(48%)由Claude赢得。所有非平局A vs B对战中,如果A获胜,则其胜率为:
然而,不同于此三巨头间激烈竞争的情况下,对于其他开源模型与之对抗时,还存在较大的差距。
特别是在Elo分数方面,上述专有榜首GPT-4以1274分领跑,而榜单上最佳开源替代品Vicuna则低达约200分之多。
尽管如此,在去掉平局后,与Vicuna对战时GPT-4取得82%胜率,并且在与前一代接口进行对决时成功拿下79%。
值得注意的是,这些排名前列的大型语言处理系统通常拥有更多参数,但即使如此,他们仍能展现出惊人的性能改进潜力。在LLM和数据策划领域近期取得的一系列突破,使使用较小型模块实现显著性能提升成为可能。
如谷歌最新推出的PaLM 2,它通过减少模块大小而获得更好的效果,这让团队对于开源LLM追赶专有模式充满乐观。何时会出现挑战?用户提出了一个需要深入思考并规划的问题。此问题引发了一系列讨论,因为除了提供类似答案外,即使是Claude也未能完全复制每一次生成试验中的结果。这表明即便是这样的挑战,也不能保证总能得到相同答案,有时候甚至会失败。而且,由于提示或采样设置不同,或许还有一些未知因素影响着输出结果。
此外,一些简单问题并不需要复杂推理或广泛知识,就像这样:
为了应付这些简单问题,无需依赖那些强大的LLM就可以找到合适解决方案,如VICUNA等轻量级版本。但目前情况显示虽然我们可以用它们取代一些更强大的LLM,但当面临复杂推理任务时,那些顶尖机器人还是占据优势地位。在这种竞技环境里,每个参与者都渴望提高自己的技能,以求在未来更加精彩的地球语境竞技大会上脱颖而出。