如何开科技LLM排行榜首次更新GPT-4闪耀榜首330亿参数小羊驼稳坐开源第一

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新！GPT-4坚守榜首，GPT-3.5紧随其后；而自家新发布的330亿参数Vicuna，则以开源第一的姿态登上排行榜。就在不久前，UC伯克利主导的「LLM排位赛」迎来了重磅更新！

这次，不仅模型数量增加到28个，而且引入了2个全新的评价标准。

同时，团队还推出了更新的Vicuna-v1.3系列模型，每个参数量为70亿、130亿和330亿，并公开了权重。

增强版LLM排行榜

观察GPT-3.5、Claude-v1和Claude-instant-v1，这三大模型间竞争激烈，在MT-bench得分上并列前茅，而在Elo和MMLU得分上更是反超其他专有模型。不论是开源还是专有，只要不是谷歌PaLM2这样的例外，都无法逃脱与之比较时显著差距的事实。

全新评价机制：MT-bench

尽管现有的评估基准如MMLU、HellaSwag和HumanEval等已经广泛应用，但它们在评估人类偏好的过程中存在不足。例如，它们通常采用封闭式问题测试，并提供简洁输出作为评价。这就导致了传统基准测试不能全面揭示LLMs的人类偏好问题。

团队在论文「Judging LLM-as-a-judge」中深入探讨这一问题，发现像GPT-4这样强大的LLMs可以与专家组及众包组的人类裁判一致性超过80%，甚至达到与两个人类评判者相媲美的一致水平。这种一致性水平已足够成为人类偏好的可扩展解释值。不过，当使用LLMs作为评判者时，还存在位置偏差、冗长偏差以及自我增强偏差等潜在限制。

不同于这些局限，MT-Bench能够有效地区分不同性能的LLMs。在最新一次“排位赛”中，对28个模型进行全面评估显示出明显区别，其中包括Chatbot Arena Elo得分高度相关性。此外，由于特定能力表现，如编码和推理方面表现突出的GPT-4，以及数学领域落后的Vicuna-13B，更深入分析表明开源模型还有改进空间。

多轮对话能力也被系统地分析，其中显示出一些开源模型第一轮第二轮之间性能下降，而一些强大的专有模型则保持了一贯高效。而基于LlaMA或更宽松策略（如MPT-7B、Falcon-40B或调整后的Open-LlaMA）的演算法之间也有着清晰区别。

此外，用来进行判断的大型语言模式（LLMs）提供一种独特优势，即它能生成可解释性的结果，以指导人类做出更明智决策。下图展示了一个关于如何处理某种MT-bench问题的情景，其中包括来自alpaca-13b和gpt-3.5-turbo回答，可以看到对于自己给出的判断，有详细且逻辑清晰反馈。

总结来说，无论是在单轮还是多轮对话场景下，通过引入新的MT-Bench标准，我们能够更加精确地区分不同的聊天机器人。但需要注意的是，即使如此，它仍然可能会犯错尤其是在数学/推理任务上。在未来的计划里，将会进一步扩展数据集并开放更多信息供研究社区参考。

标签： ai智能写作神器、创意智能产品设计、智能照明控制系统怎样布线、人工智能例子、 ai智能文章生成器

上一篇：辽宁工程技术大学工科教育的新风向标

下一篇：个人工作情况报告范文我的职业历程从新手到专家

如何开科技LLM排行榜首次更新GPT-4闪耀榜首330亿参数小羊驼稳坐开源第一

家居美学从简到繁的装潢艺术探究

厨房小改造大变革局部装修技巧与心得分享

卫生间设计艺术卫生间装修创意

追求卓越上海高端别墅装修设计趋势

淑妃晓桥琉水古典皇家风情下的梦幻水景