2025-01-11 科技 0
编辑:好困【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛!
这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。OpenAI GPT-4、OpenAI GPT-3.5-turbo、Anthropic Claude-v1和RWKV-4-Raven-14B(开源)毫无疑问,只要GPT-4参战,必定是稳居第一。
不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。
相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。
而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第六——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。
从胜率图来看,在66场非平局比赛中,其中32场(48%)由Claude赢得。所有非平局A vs B对战中,如果A获胜,则其胜率为:
然而,不同于此三巨头间激烈角逐,其余开源模型与之竞争仍存在显著差距。
特别是,以1274Elo分数领跑排行榜的大型专有机器人—GPT-4,比榜单上最好的开源替代品—Vicuna—13B高出近200分。在去掉平局后,与Vicuna交手时,GPT成功取得82%;甚至与前辈GPT—3.5-turbo对决时,也能获得79%。
值得注意的是,这些在LLM和数据策划方面取得进展,使得较小型LLM实现性能改进成为可能。如谷歌最新PaLM 2展示,一款使用较小大小却实现更佳性能的小型LLM。
因此,对于那些迎头赶上的开放性语言模拟充满乐观情绪。何时会有人“翻车”?我们可以看到用户提出了一个需要细致推理和规划的问题。这问题对于Claude和GTP均提供类似答案,但Claude回答略优于它。不过,由于采样随机性,我们发现这种情况并不能总复刻。此外,有时候,即使如此精确计算出的答案也不一定能产生相同结果,如下所示:
除了这样的挑战,还有一些并不需复杂推理或知识的问题。在这类简单问题上,就像是一个叫做Vicuna的小型LLM,可以达到与任何一款更强大的但体积庞大的专有机器人的水平,所以我们可能用稍微弱一些但体积更小或便宜的大型语言模拟替代它们以提高效率。
自三个顶尖专属机器人加入以来,这个聊天世界竞技场从未如此紧张。而由于他们在对抗这些独门产品时不断输掉比赛,它们各自失去了几百点Elo分数。最后,该团队计划开放API,让用户可以注册自己的聊天机器人参与这个版本的人气赛事。
参考资料:
https://lmsys.org/blog/2023年05月10日领导者板块