2025-01-11 科技 0
编辑:好困【新智元导读】如今,大语言模型们正像《王者荣耀》、《LOL》、《Dota》等游戏中的玩家一样参与排位赛!近期,来自LMSYS Org(UC伯克利主导)的研究人员发布了一个令人瞩目的消息——大型语言模型版排位赛!
这次,团队不仅推出了4款新产品,还展示了一个(准)中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B(开源)无疑,都在这个竞技场上展现出过人之处。GPT-4稳坐第一的位置,其实力丝毫不容置疑。
然而,Claude以其非凡的表现逆袭至第二名,只与GPT-4相差50分,这让人惊叹不已。而排名第三的GPT-3.5虽然略逊于130亿参数强大的Vicuna,但只比后者多72分。
RWKV-4-Raven-14B凭借其卓越表现,跨越众Transformer模型,在第六名独自一帆风顺。这意味着除了Vicuna外,它在所有其他开源模型之间赢得了超过50%的比赛。
从胜率图来看,GPT-4和Claude之间共进行66场非平局对决,其中Claude赢得32场比赛(48%)。
不过,对于其他开源模型与这三个专有巨头之间的较量,我们仍需耐心观察。尤其是GPT-4,以1274分高居榜首,这个数字远超榜单上最好的开源替代品Vicuna—13B200分以上。
在去除平局后,与Vicuna—13B交手时,GPT—4取得82%胜率;甚至对阵前辈GPT—3.5-turbo也能拿下79%的胜利。不过值得注意的是,这些开放性排行榜上的开源模型通常拥有更少参数,一般范围为30亿到140亿。
最近LLM和数据策划领域的大幅进步,使得使用较小规模模块获得显著性能提升成为可能,如谷歌最新PaLM 2所展示。
因此,不论何种技术迁移或更新都充满希望。在下方问题中,我们见证了用户提出的棘手挑战。尽管Claude和GPT—4提供类似答案,但Claude稍微优化了一点点。此外,由于采样随机性,不同结果总会出现,有时即使是按照相同提示生成,也可能产生不同结果。
此外,当通过OpenAI API或ChatGPT接口使用时,即便是同一款软件,也能体验到细微差别。这可能由不同的提示、采样参数或未知因素引起。
最后,在一些简单问题处理方面,即使是如Victuna这样的弱小模型也能与之抗衡,因此我们可以考虑用更小巧但性能相当的大型语言模块来取代那些强大但资源消耗大的专有模块。Elo分数自三大巨头加入以来,从未如此激烈地展现竞争欲望。
由于与这些强大专有巨头对战导致输掉许多比赛,所以开放性排行榜上的每个选项都经历了一定程度下降。
未来团队计划开放更多API,让任何想象中的聊天机器人都能够注册并参加这场壮观的游戏盛宴!
参考资料:
https://lmsys.org/blog/2023年05月10日/leaderboard