科技创新素材之风GPT-4稳坐首位国人开源RNN模型如潮水般涌入前六名

2025-01-11 科技 0

编辑：好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了！前段时间，来自LMSYS Org（UC伯克利主导）的研究人员搞了个大新闻——大语言模型版排位赛！

这次，团队不仅带来了4位新玩家，而且还有一个（准）中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B（开源）毫无疑问，只要GPT-4参战，必定是稳居第一。

不过，出乎意料的是，Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二，而且只比GPT-4差了50分。

相比之下，排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现，超越一众Transformer模型排到了第六——除Vicuna模型外，RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

从胜率图来看，在66场非平局比赛中，其中32场（48%）由Claude赢得。所有非平局A vs B对战中，如果A获胜，则其胜率为：

然而，不同于此三巨头间激烈竞争的情况下，对于其他开源模型与之对抗时，还存在较大的差距。

特别是在Elo分数方面，上述专有榜首GPT-4以1274分领跑，而榜单上最佳开源替代品Vicuna则低达约200分之多。

尽管如此，在去掉平局后，与Vicuna对战时GPT-4取得82%胜率，并且在与前一代接口进行对决时成功拿下79%。

值得注意的是，这些排名前列的大型语言处理系统通常拥有更多参数，但即使如此，他们仍能展现出惊人的性能改进潜力。在LLM和数据策划领域近期取得的一系列突破，使使用较小型模块实现显著性能提升成为可能。

如谷歌最新推出的PaLM 2，它通过减少模块大小而获得更好的效果，这让团队对于开源LLM追赶专有模式充满乐观。何时会出现挑战？用户提出了一个需要深入思考并规划的问题。此问题引发了一系列讨论，因为除了提供类似答案外，即使是Claude也未能完全复制每一次生成试验中的结果。这表明即便是这样的挑战，也不能保证总能得到相同答案，有时候甚至会失败。而且，由于提示或采样设置不同，或许还有一些未知因素影响着输出结果。

此外，一些简单问题并不需要复杂推理或广泛知识，就像这样：

为了应付这些简单问题，无需依赖那些强大的LLM就可以找到合适解决方案，如VICUNA等轻量级版本。但目前情况显示虽然我们可以用它们取代一些更强大的LLM，但当面临复杂推理任务时，那些顶尖机器人还是占据优势地位。在这种竞技环境里，每个参与者都渴望提高自己的技能，以求在未来更加精彩的地球语境竞技大会上脱颖而出。

标签：蓝思科技、适合二年级的科技小制作、未来战争、科学幻想作文、 2021年中国新科技

上一篇：科技发展论文如同潮涌般LLM准中文排行榜悄然而至GPT-4稳坐龙头而国人开源RNN模型则像一群勇敢的

下一篇：水利水电工程从事什么工作 - 水道守护者揭秘河流的守望者们

科技创新素材之风GPT-4稳坐首位国人开源RNN模型如潮水般涌入前六名

仪器仪表类型-精确测量的艺术从传感器到分析仪探索不同类别的应用与发展

仪器校准-精确测量的守护者揭秘各种仪器校准机构

嵌入式系统设备智能家居系统工业控制系统汽车电子系统

激光尺寸测量系统如何影响工厂生产效率

浪漫花语绚烂情意的语言