GPT-4稳如科技玩具的冠军国人开源RNN模型雄鹰般冲击前六名

2025-01-11 科技 0

编辑：好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了！前段时间，来自LMSYS Org（UC伯克利主导）的研究人员搞了个大新闻——大语言模型版排位赛！

这次，团队不仅带来了4位新玩家，而且还有一个（准）中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B（开源）毫无疑问，只要GPT-4参战，必定是稳居第一。

不过，出乎意料的是，Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二，而且只比GPT-4差了50分。

相比之下，排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现，超越一众Transformer模型排到了第六——除Vicuna模型外，RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

从下面这个胜率图来看，GPT-4和Claude之间的66场非平局比赛中，Claude赢得了32场（48%）比赛。

所有非平局A vs B对战中，大型语言模型A获胜比例

然而，在其他开源模型与这三个专有模式之间，还存在着很大的差距。

特别是，以1274分数领跑排行榜的大型科技玩具—GPT-4，这个数字比榜单上最好的开源替代品—Vicuna 13B低200分左右。

去掉平局后，与Vicuna 13B对决时,GPT成功获得82%胜利；即便与前辈-GTP 3.5 turbo进行较量，也取得79%胜绩。这一切都表明，即使是在拥有较少参数的情况下，如30亿至140亿范围内，不同大小LLM仍能展现出惊人的性能提升潜力。

值得注意的是，从最近LLM数据策划领域所作出的突破性进展可知，我们可以通过使用小型但高效的大型语言模式实现显著性能改善。谷歌最新发布的小型PaLM2就是这样一个例子，它在保持小体积条件下的表现优于其先辈。

因此，对于那些渴望迎头赶上的开放式技术爱好者来说，他们或许会期待更接近未来可能发生的一种情景，那就是“翻车”的时刻何时到来？在图中的问题提出了一个需要深度推理和精细规划的问题。在试验过程中，由于采样的随机性，有时候用户得到类似的答案，但有时候却又失望地发现无法重复生成相同顺序。

此外，一些用户倾向于选择聊天机器人系统时，更偏好以不同的提示或者采样参数设置为基础，而这样的差异往往导致了一些微妙而不可预测的情形。此举让我们意识到即便是如此接近人类智能的大型科技玩具，也并未完全摆脱诸多难题。

除了这些棘手情况，还有一部分简单问题并不需要复杂推理或知识处理。在这种情况下，即使是一些较弱但体积更小或价格更低的大型语言模块如Vicuna等，都能达到与之竞争相当水平。因此，我们有理由相信，用稍弱但更加轻巧且经济实惠的大型语言模块，可以作为更强大的如GTP 4这样的顶尖角色扮演者的有效替代方案。

自从三个强大的专属巨兽加入竞技以来，从未有过如此激烈的人工智能世界竞技场。由于它们在挑战专属巨兽时遭遇失败，因此其Elo点数逐渐降低。而对于那些愿意参与战斗并希望展示自己的技能的人来说，一项计划正在酝酿当中，那将允许他们注册自己的聊天机器人，并参加真正意义上的竞技活动。

标签：科技创新为主题的论文、中国电子科技集团董事长、悬浮车、如何免费开科技、科技小制作怎么做