当前位置: 首页 - 智能 - 如何开科技LLM排行榜首次更新GPT-4闪耀榜首330亿参数小羊驼稳坐开源第一

如何开科技LLM排行榜首次更新GPT-4闪耀榜首330亿参数小羊驼稳坐开源第一

2025-02-28 智能 0

编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后;而自家新发布的330亿参数Vicuna,则以开源第一的姿态登上排行榜。就在不久前,UC伯克利主导的「LLM排位赛」迎来了重磅更新!

这次,不仅模型数量增加到28个,而且引入了2个全新的评价标准。

同时,团队还推出了更新的Vicuna-v1.3系列模型,每个参数量为70亿、130亿和330亿,并公开了权重。

增强版LLM排行榜

观察GPT-3.5、Claude-v1和Claude-instant-v1,这三大模型间竞争激烈,在MT-bench得分上并列前茅,而在Elo和MMLU得分上更是反超其他专有模型。不论是开源还是专有,只要不是谷歌PaLM2这样的例外,都无法逃脱与之比较时显著差距的事实。

全新评价机制:MT-bench

尽管现有的评估基准如MMLU、HellaSwag和HumanEval等已经广泛应用,但它们在评估人类偏好的过程中存在不足。例如,它们通常采用封闭式问题测试,并提供简洁输出作为评价。这就导致了传统基准测试不能全面揭示LLMs的人类偏好问题。

团队在论文「Judging LLM-as-a-judge」中深入探讨这一问题,发现像GPT-4这样强大的LLMs可以与专家组及众包组的人类裁判一致性超过80%,甚至达到与两个人类评判者相媲美的一致水平。这种一致性水平已足够成为人类偏好的可扩展解释值。不过,当使用LLMs作为评判者时,还存在位置偏差、冗长偏差以及自我增强偏差等潜在限制。

不同于这些局限,MT-Bench能够有效地区分不同性能的LLMs。在最新一次“排位赛”中,对28个模型进行全面评估显示出明显区别,其中包括Chatbot Arena Elo得分高度相关性。此外,由于特定能力表现,如编码和推理方面表现突出的GPT-4,以及数学领域落后的Vicuna-13B,更深入分析表明开源模型还有改进空间。

多轮对话能力也被系统地分析,其中显示出一些开源模型第一轮第二轮之间性能下降,而一些强大的专有模型则保持了一贯高效。而基于LlaMA或更宽松策略(如MPT-7B、Falcon-40B或调整后的Open-LlaMA)的演算法之间也有着清晰区别。

此外,用来进行判断的大型语言模式(LLMs)提供一种独特优势,即它能生成可解释性的结果,以指导人类做出更明智决策。下图展示了一个关于如何处理某种MT-bench问题的情景,其中包括来自alpaca-13b和gpt-3.5-turbo回答,可以看到对于自己给出的判断,有详细且逻辑清晰反馈。

总结来说,无论是在单轮还是多轮对话场景下,通过引入新的MT-Bench标准,我们能够更加精确地区分不同的聊天机器人。但需要注意的是,即使如此,它仍然可能会犯错尤其是在数学/推理任务上。在未来的计划里,将会进一步扩展数据集并开放更多信息供研究社区参考。

标签: ai智能写作神器创意智能产品设计智能照明控制系统怎样布线人工智能例子ai智能文章生成器