学霸的科技树GPT-4稳坐榜首国人开源RNN模型如虎添翼冲刺前六名

2025-01-11 科技 0

编辑：好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了！前段时间，来自LMSYS Org（UC伯克利主导）的研究人员搞了个大新闻——大语言模型版排位赛！

这次，团队不仅带来了4位新玩家，而且还有一个（准）中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B（开源）毫无疑问，只要GPT-4参战，必定是稳居第一。

不过，出乎意料的是，Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二，而且只比GPT-4差了50分。

相比之下，排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现，超越一众Transformer模型排到了第六——除Vicuna模型外，RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

从胜率图来看，在66场非平局比赛中，其中32场（48%）由Claude赢得。所有非平局A vs B对战中，如果A获胜，则其胜率为：

然而，不同于此三巨头间激烈角逐，其余开源模型与之竞争仍存在显著差距。

特别是，以1274Elo分数领跑排行榜的大型专有机器人—GPT-4，比榜单上最好的开源替代品—Vicuna—13B高出近200分。在去掉平局后，与Vicuna交手时,GPT成功取得82%；甚至与前辈GPT—3.5-turbo对决时，也能获得79%。

值得注意的是，这些在LLM和数据策划方面取得进展，使得较小型LLM实现性能改进成为可能。如谷歌最新PaLM 2展示，一款使用较小大小却实现更佳性能的小型LLM。

因此，对于那些迎头赶上的开放性语言模拟充满乐观情绪。何时会有人“翻车”？我们可以看到用户提出了一个需要细致推理和规划的问题。这问题对于Claude和GTP均提供类似答案，但Claude回答略优于它。不过，由于采样随机性，我们发现这种情况并不能总复刻。此外，有时候，即使如此精确计算出的答案也不一定能产生相同结果，如下所示：

除了这样的挑战，还有一些并不需复杂推理或知识的问题。在这类简单问题上，就像是一个叫做Vicuna的小型LLM，可以达到与任何一款更强大的但体积庞大的专有机器人的水平，所以我们可能用稍微弱一些但体积更小或便宜的大型语言模拟替代它们以提高效率。

自三个顶尖专属机器人加入以来，这个聊天世界竞技场从未如此紧张。而由于他们在对抗这些独门产品时不断输掉比赛，它们各自失去了几百点Elo分数。最后，该团队计划开放API，让用户可以注册自己的聊天机器人参与这个版本的人气赛事。

参考资料：

https://lmsys.org/blog/2023年05月10日领导者板块

标签：今天航天科技最新消息、我的宇宙超黑科技基地、 2021国家科技进步奖最终结果、科技馆里有什么、科技分为哪几大类

上一篇：小型住宅区是否适合采用工程水电大包施工方案探讨可行性

下一篇：诊所装修设计创造温馨舒适的医疗空间

学霸的科技树GPT-4稳坐榜首国人开源RNN模型如虎添翼冲刺前六名

最新Android手机效能排行出炉王者吃鸡就选这些机型

科技创新筑梦未来微信全面开启小号时代同一手机号注册辅助账号激活生活效率新篇章

索尼A77探索卓越镜头与快感无限的中级数码单反体验

日系清新人像摄影捕捉纯粹的瞬间美

摄影技巧-捕捉光线之美如何高效使用反光板

学霸的科技树GPT-4稳坐榜首国人开源RNN模型如虎添翼冲刺前六名

最新Android手机效能排行出炉 王者吃鸡就选这些机型

科技创新筑梦未来微信全面开启小号时代同一手机号注册辅助账号激活生活效率新篇章

索尼A77探索卓越镜头与快感无限的中级数码单反体验

日系清新人像摄影捕捉纯粹的瞬间美

摄影技巧-捕捉光线之美如何高效使用反光板

最新Android手机效能排行出炉王者吃鸡就选这些机型