当前位置: 首页 - 科技 - 第三次科技革命LLM准中文排行榜启幕GPT-4如猛龙稳坐第一位而国人开源RNN模型则像潜龙在渊悄然冲

第三次科技革命LLM准中文排行榜启幕GPT-4如猛龙稳坐第一位而国人开源RNN模型则像潜龙在渊悄然冲

2025-01-11 科技 0

【新智元导读】大语言模型们正在模仿王者荣耀/LoL/Dota等游戏中的玩家,进行排位赛。最近,来自LMSYS Org(UC伯克利主导)的研究人员发布了一个重大新闻——大型语言模型版排位赛!这次,他们不仅引入了四个新的玩家,还推出了一个准中文排行榜。

OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B(开源)都是参赛的强手。GPT-4自然稳居第一,但出人意料的是,Claude超越了GPT-3.5,仅比GPT-4低50分。排名第三的GPT-3.5只比130亿参数的Vicuna高72分,而140亿参数的「纯RNN模型」RWKV以卓越表现进入前六名。

从胜率图看,GPT-4与Claude之间66场非平局比赛中,Claude赢得32场(48%)。然而,与其他开源模型相比,这三个专有模型仍然占据优势。特别是,GPT-4以1274Elo分数领跑排行榜,比榜单上最好的开源替代——Vicuna—13B高近200分。在去掉平局后,GPT-4在对战Vicuna时赢得82%,甚至在对战前一代GPT—3.5—turbo时赢得79%。

值得注意的是,这些开源模型通常具有较少参数范围30亿至140亿之間。不过,由于LLM和数据策划方面的进展,使得使用较小规模取得显著性能改进成为可能,如谷歌PaLM 2所示。

团队对于开源语言模型迎头赶上的乐观情绪依旧坚持不懈。而且,由于采样的随机性,一些情况下可以复刻,但也有时候无法完全重现。此外,当使用OpenAI API或ChatGPT接口时,行为略有不同,这可能由不同的提示、采样参数或其他未知因素导致。

除了这些棘手问题,还有一些并不需要复杂推理或知识的问题,在这种情况下,可以用如Vicuna这样的更小或便宜的大型语言模型来替代像GPT—4这样更强大的模式。这使竞技场变得更加激烈,因为在与专有模式对战中,小型LLM输掉了一些比赛,因此它们的Elo分数下降。

最后,该团队计划开放一些API,让用户注册自己的聊天机器人参与排位赛。

标签: 2022年全国科技管理人员数量华映科技科幻画作品图片大全数字产业科幻画简单又漂亮