2025-01-11 科技 0
编辑:好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛!
这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B(开源)毫无疑问,只要GPT-4参战,必定是稳居第一。
不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。
相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。
而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第6——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。
从下面这个胜率图来看,GPT-4和Claude之间的66场非平局比赛中,Claude赢得了32场(48%)比赛。
然而,对于其他开源模型与这三个专有模型之间存在的大量差距感到遗憾的是,这些数据表明我们还有一段很长很长的一程需要走。
特别是在去掉平局后,比如说在与Vicuna对战时,GPT仍旧以1274分数领跑排行榜。这比榜单上最好的开源替代——Vicuna—13B——要高出近200分。
在过去几周里,我们看到LLM领域取得了一些令人印象深刻的地步。使用较小但性能更佳的小型LLM已经成为可能,而谷歌最新PaLM 2就是这样一个例子:它利用较小大小实现显著性能提升。
因此,在技术日益发展的情况下,我们对那些正在努力赶上我们的开放式LLM充满乐观。他们能否找到自己的“翻车”点?或者是否会出现新的挑战?
值得注意的是,即使是目前看似不可逾越的大型LLM,也并非总能提供完美答案。在某些情况下,他们甚至可能犯错或给出错误答案,就像人们常说的“程序员写代码也是人间折磨”。
虽然如此,不同的人对于机器学习系统所产生结果也有不同的偏好。而且,由于采样的随机性,每次尝试都可能获得不同的结果,有时候我们得到想要的答案,有时候却不尽如人意。
未来,看似简单的问题也许会被解决,但复杂问题仍然让人类和机器难以达成共识。这一切都展示出了当前技术界竞争激烈的情景,并提醒我们即便最先进技术也有其极限。此外,与此同时,我们发现一些用户倾向于选择基于不同策略或提示设计出来的小型化版本,它们能够为特定任务提供类似的效果。
最后,让我们看看未来的世界将如何演变,因为尽管现在还不能完全预测,但可以肯定的是,将来一定会有更多惊喜等待着我们。