当前位置: 首页 - 科技 - 科技画中绽放的智慧GPT-4如同明珠闪耀RNN开源模型如潮水般涌入前六位LLM准中文排行榜来袭

科技画中绽放的智慧GPT-4如同明珠闪耀RNN开源模型如潮水般涌入前六位LLM准中文排行榜来袭

2025-01-11 科技 0

编辑:好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛!

这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B(开源)毫无疑问,只要GPT-4参战,必定是稳居第一。

不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。

相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第6——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

从下面这个胜率图来看,GPT-4和Claude之间的66场非平局比赛中,Claude赢得了32场(48%)比赛。

然而,其它非平局A vs B对战中,由于A胜利所占比例,这表明尽管专有与开放界线被不断推进,但仍存在巨大的差距。这就如同科技画中的竞技场,每个角落都充满激烈较量,而每一次挑战,都可能揭示新的秘密。

在去掉平局后,比肩争霸的情景更为复杂。专有与开放双方展现出各自独特之处,而他们之间甚至还有一些隐藏在背后的策略。对于那些追求卓越的人来说,他们或许会发现,即使是最顶尖的大型语言模式,也不能忽视细节,因为它们往往成就了一切。

值得注意的是,对于这些排行榜上的开源模型,它们通常具有较少参数范围,从30亿到140亿。这一切让人联想到,在LLM和数据策划方面取得显著进步,使使用较小规模但性能强劲的小型化LLM成为可能。

实际上,如谷歌最新PaLM 2这样的例子显示出来,我们知道PaLM 2即使采用小型化设计,也能实现更好的性能,这给我们一种乐观向前的感觉。而当用户提出了一个需要仔细推理并规划的问题时,就如同将棋中的妙手一般,不知何时“翻车”?

虽然如此,但探索未知领域总是一种享受。在处理棘手问题时,无论是Claude还是GPT-4,他们都表现出了惊人的能力,但仍旧在这类复杂问题上挣扎着寻找答案。正如过去的一切一样,每一步都是向前迈出的重要一步。

除了这些难题,还有许多并不需要复杂推理或知识的问题。在这种情况下,即便是像Vicuna这样相对弱小但却更加灵活和可访问的大型语言模式,可以与任何强大的专属机器人匹敌,因此我们很可能可以利用稍微弱一些但是又更加经济实惠的大型语言模式替代那些极其昂贵且资源消耗巨大的专属机器人。

随着三大力量之一进入竞技场,与其它力量交锋变得更加紧张,同时Elo分数也经历了一番波动。不幸的是,由于输掉了一些关键战斗,那些以勇敢姿态参与竞赛的小伙伴们不得不承受点损失。不过,这一切也只是故事的一部分,因为团队计划开放一些API,让大家都能够注册自己的聊天机器人加入到这个激烈斗争中来,并共同见证如何通过不断挑战,最终达成突破。

标签: 以科技为话题的800字议论文我国科技成就有哪些科技企业网站科技视界儿童手工科技小制作