第三次科技革命LLM准中文排行榜启幕GPT-4如猛龙稳坐第一位而国人开源RNN模型则像潜龙在渊悄然冲

2025-01-11 科技 0

【新智元导读】大语言模型们正在模仿王者荣耀/LoL/Dota等游戏中的玩家，进行排位赛。最近，来自LMSYS Org（UC伯克利主导）的研究人员发布了一个重大新闻——大型语言模型版排位赛！这次，他们不仅引入了四个新的玩家，还推出了一个准中文排行榜。

OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B（开源）都是参赛的强手。GPT-4自然稳居第一，但出人意料的是，Claude超越了GPT-3.5，仅比GPT-4低50分。排名第三的GPT-3.5只比130亿参数的Vicuna高72分，而140亿参数的「纯RNN模型」RWKV以卓越表现进入前六名。

从胜率图看，GPT-4与Claude之间66场非平局比赛中,Claude赢得32场（48%）。然而，与其他开源模型相比，这三个专有模型仍然占据优势。特别是,GPT-4以1274Elo分数领跑排行榜，比榜单上最好的开源替代——Vicuna—13B高近200分。在去掉平局后，GPT-4在对战Vicuna时赢得82%，甚至在对战前一代GPT—3.5—turbo时赢得79%。

值得注意的是，这些开源模型通常具有较少参数范围30亿至140亿之間。不过，由于LLM和数据策划方面的进展，使得使用较小规模取得显著性能改进成为可能，如谷歌PaLM 2所示。

团队对于开源语言模型迎头赶上的乐观情绪依旧坚持不懈。而且，由于采样的随机性，一些情况下可以复刻，但也有时候无法完全重现。此外，当使用OpenAI API或ChatGPT接口时，行为略有不同，这可能由不同的提示、采样参数或其他未知因素导致。

除了这些棘手问题，还有一些并不需要复杂推理或知识的问题，在这种情况下，可以用如Vicuna这样的更小或便宜的大型语言模型来替代像GPT—4这样更强大的模式。这使竞技场变得更加激烈，因为在与专有模式对战中，小型LLM输掉了一些比赛，因此它们的Elo分数下降。

最后，该团队计划开放一些API，让用户注册自己的聊天机器人参与排位赛。

标签： 2022年全国科技管理人员数量、华映科技、科幻画作品图片大全、数字产业、科幻画简单又漂亮

上一篇：6平米小卧室改造简装 - 微空间大变化6平米小卧室的简约改造艺术

下一篇：从墙面处理到家具布置最详细的装修安装顺序指南

第三次科技革命LLM准中文排行榜启幕GPT-4如猛龙稳坐第一位而国人开源RNN模型则像潜龙在渊悄然冲

亚都净化器我的生活新宠儿清洁不再累人

锡纸微波炉烹饪技巧家庭用微波炉改造

微波烹饪新潮流锡纸包裹的健康美食革命

更强颜值更高性能魅族手机怎么样iQOO Neo8系列公布强大又Pro

rpa机器人多少钱 - 智能工作者的价格RPA机器人的成本分析