综合国力的LLM排行榜首次更新GPT-4雄踞榜首330亿参数小羊驼稳坐开源之巅

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新！GPT-4坚守榜首，GPT-3.5紧随其后，330亿参数Vicuna则稳坐开源之巅。UC伯克利主导的「LLM排位赛」迎来首次重磅更新！

这次，团队不仅在排行榜中加入了更多模型（目前已达到28个），而且还增加了2个全新的评价标准。

与此同时，团队还发布了更新的Vicuna-v1.3系列模型，参数量为70亿、130亿和330亿，且权重已公开。

增强版LLM排行榜

不难看出，GPT-3.5、Claude-v1和Claude-instant-v1这三个模型之间实际难分伯仲。不仅在MT-bench得分上咬得很紧，而且在诸如Elo和MMLU得分上还有后者还有反超。

和这些专有模型相比，开源模型们则有着明显的差距，即便是作为开源第一的Vicuna-33B也是如此。

当然，这一切都要归功于综合国力的提升，以及对大语言模型评估标准的一致性探索。

全新评价机制：MT-bench

虽然现在已经有了许多基准测试，比如MMLU、HellaSwag和HumanEval等，但传统基准测试存在不足，因为它们通常是在封闭式问题上进行测试，并提供简洁输出作为评价。

结果显示，与人类偏好一致性的高水平被证明可以有效地通过系统研究揭示，如论文「Judging LLM-as-a-judge」。这种一致性水平，可以媲美两个人类评判者的表现。

然而，当LLM作为评判者时，也存在一些潜在限制：

位置偏差，即可能偏向于第一个答案选择。

冗长偏差，即可能偏向更长回答，而忽略质量。

自我增强偏差，即可能偏向自己的回答。

推理能力有限，在数学推理问题打分时存在缺陷。

不同LLM评判者的立场偏见也值得注意，其中「一致性」指的是评判者在顺序交换时给出的相同结果百分比。为了缓解这些限制，我们探讨了少样本评判、思维链评判、基于参考的评判以及微调以减轻影响。

结果分析

MT-Bench有效地区分了性能差异

28个模型全面被测定，其成绩与Chatbot Arena Elo高相关度。在引入MT-Bench后，更清楚地展现出了GPT-4与GPT-3.5/Claude，以及开源与专有间性能差距。此外，我们选取几个代表性的LLM，并分析每种分类下的表现。这表明开源模式仍需改进空间。

比较6个模式8种能力：写作、角色扮演、推理数学编码提取自然科学人文科学

多轮对话能力也被分析，对于第一轮第二轮之间性能下降情况，对于强大的专属模式保持了一贯。另外基于Llama-Lmaa-Mpt-Falcon及调整后的Open-Lmaa也有显著性能落后的情况出现。对于每轮对话中的MT-bench满分10点，不同模式表现各异。

可解释性方面，用LLMs做判断带来了另一优势——它们能够提供清晰逻辑反馈，如下图展示：

总结来说，加深了解不同的聊天机器人区别是关键。但使用时应谨慎，因它仍然可能出错特别是在数学/推理问题打分时。未来计划包括发布Chatbot Arena数据集，以供广泛研究利用，并扩展问题集至更丰富版本—即将到来的MT-Bench-1K数据集。

标签：人工智能与智能制造的区别、为什么不建议戴手环、人工智能的好处举例、 ai是什么软件、人工智能的就业方向有哪些