当前位置: 首页 - 科技 - 科技传承之风LLM准中文排行榜刃锋出炉GPT-4如雄鹰稳坐首位国人开源RNN模型勇冲前六展现新时代智

科技传承之风LLM准中文排行榜刃锋出炉GPT-4如雄鹰稳坐首位国人开源RNN模型勇冲前六展现新时代智

2025-01-11 科技 0

【新智元导读】大型语言模型们正如同玩王者荣耀、LoL或Dota的选手一样,参与排位赛竞技。最近,来自UC伯克利主导的LMSYS Org研究团队推出了一个重大新闻——大规模语言模型排位赛!此次活动不仅引入了四名新成员,还有一个(准)中文排名榜。OpenAI GPT-4、GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B(开源)无疑,GPT-4稳居首位。

然而,这次比赛中出人意料的是,Claude以其卓越表现力超越了在OpenAI带领下的GPT-3.5,并仅与GPT-4相差50分。这一结果显示了当前最强开源模型Vicuna和Transformer模型之间的激烈竞争,而RWKV-4-Raven-14B凭借其RNN机制的优势,以出色的表现排在第六名。

从胜率图来看,GPT-4与Claude之间共进行66场非平局对决,其中Claude赢得32场比赛(48%)。其他专有模型与开源模型间仍存在显著差距。特别是,与Vicuna相比,GPT-4以1274Elo分数占据榜首,这比最佳开源替代品Vicuna低近200分。在去掉平局后的对决中,GPT-4在挑战Vicuna时获胜率达82%,甚至在对抗前一代GPT-3.5-turbo时成功率达到79%。

值得注意的是,这些排名上的开源模型通常拥有较少参数,大约为30亿到140亿参数范围内。而且,由于LLM和数据策划领域最近取得的进展,使得使用较小但性能优异的小型化LLM成为可能,如谷歌PaLM 2所展示。

因此,对于这些能够接近并追赶专有LLM性能水平的开放性项目而言,我们充满乐观期待着何时会看到它们能「翻车」。尽管如此,在某些情况下,即使是像Claude这样的高级系统也无法提供完美答案。此外,不同提示、采样参数或未知因素可能导致使用OpenAI API和ChatGPT接口时出现微妙差别。

除了复杂问题处理能力之外,还有一类简单问题并不需要复杂推理或知识积累。在这种情况下,即便是像Vicuna这样的开放性大型语言模型也可以与专有系统如GTP等保持相当水平,因此我们或许可以考虑采用稍弱但更小或经济实惠的大型语言模式作为替代选择,从而降低成本提高效用。自从三个顶尖专属LLM加入后,与他们角逐至今,一切都变得异常激烈。不过,由于输给这些强敌多了一些,对于所有参赛者来说,都意味着Elo分数随之下滑。而未来计划将开放更多API,让用户注册自己的聊天机器人加入这场持续热闹的游戏之旅中。

标签: 长征火箭以科技创新为话题的议论文一年级科技幻想画关于创新的金句都市科技大能