当前位置: 首页 - 科技 - GPT-4稳如科技玩具的冠军国人开源RNN模型雄鹰般冲击前六名

GPT-4稳如科技玩具的冠军国人开源RNN模型雄鹰般冲击前六名

2025-01-11 科技 0

编辑:好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛!

这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B(开源)毫无疑问,只要GPT-4参战,必定是稳居第一。

不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。

相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第六——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

从下面这个胜率图来看,GPT-4和Claude之间的66场非平局比赛中,Claude赢得了32场(48%)比赛。

所有非平局A vs B对战中,大型语言模型A获胜比例

然而,在其他开源模型与这三个专有模式之间,还存在着很大的差距。

特别是,以1274分数领跑排行榜的大型科技玩具—GPT-4,这个数字比榜单上最好的开源替代品—Vicuna 13B低200分左右。

去掉平局后,与Vicuna 13B对决时,GPT成功获得82%胜利;即便与前辈-GTP 3.5 turbo进行较量,也取得79%胜绩。这一切都表明,即使是在拥有较少参数的情况下,如30亿至140亿范围内,不同大小LLM仍能展现出惊人的性能提升潜力。

值得注意的是,从最近LLM数据策划领域所作出的突破性进展可知,我们可以通过使用小型但高效的大型语言模式实现显著性能改善。谷歌最新发布的小型PaLM2就是这样一个例子,它在保持小体积条件下的表现优于其先辈。

因此,对于那些渴望迎头赶上的开放式技术爱好者来说,他们或许会期待更接近未来可能发生的一种情景,那就是“翻车”的时刻何时到来?在图中的问题提出了一个需要深度推理和精细规划的问题。在试验过程中,由于采样的随机性,有时候用户得到类似的答案,但有时候却又失望地发现无法重复生成相同顺序。

此外,一些用户倾向于选择聊天机器人系统时,更偏好以不同的提示或者采样参数设置为基础,而这样的差异往往导致了一些微妙而不可预测的情形。此举让我们意识到即便是如此接近人类智能的大型科技玩具,也并未完全摆脱诸多难题。

除了这些棘手情况,还有一部分简单问题并不需要复杂推理或知识处理。在这种情况下,即使是一些较弱但体积更小或价格更低的大型语言模块如Vicuna等,都能达到与之竞争相当水平。因此,我们有理由相信,用稍弱但更加轻巧且经济实惠的大型语言模块,可以作为更强大的如GTP 4这样的顶尖角色扮演者的有效替代方案。

自从三个强大的专属巨兽加入竞技以来,从未有过如此激烈的人工智能世界竞技场。由于它们在挑战专属巨兽时遭遇失败,因此其Elo点数逐渐降低。而对于那些愿意参与战斗并希望展示自己的技能的人来说,一项计划正在酝酿当中,那将允许他们注册自己的聊天机器人,并参加真正意义上的竞技活动。

标签: 科技创新为主题的论文中国电子科技集团董事长悬浮车如何免费开科技科技小制作怎么做