2025-01-11 科技 0
编辑:好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛!
这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B(开源)毫无疑问,只要GPT-4参战,必定是稳居第一。
不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。
相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。
而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第6——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。
从下面这个胜率图来看,GPT-4和Claude之间的66场非平局比赛中,Claude赢得了32场(48%)比赛。
然而,对于其他开源模型与这三个专有模型之间存在的大量差距,这一点仍然没有改变。
特别是在Elo分数方面,上述三个专有榜首以1274分领先,而最好的开源替代品Vicuna则远远落后于他们。尽管如此,不同大小及复杂程度的大型语言模式(LLMs)正变得更加接近,它们在数据策划以及LLM领域取得了一些进展。
因此,我们可以预见,在未来,一些较小但功能齐全的大型语言模式可能会逐渐取代那些更大的、更昂贵但性能略逊一筹的大型语言模式。谷歌最新推出的PaLM 2就是这样一个例子,它利用较小规模但具有突破性性能的小型化技术显示出了巨大的潜力。
总结来说,大型语言模式竞技场上的激烈竞争正在不断加剧,但对于用户而言,这意味着未来的选择将更加多样化且价格合理。这一切都为我们提供了一种新的视角来思考如何应用和使用这些强大的工具,以便实现最佳效果。