和平精英免费开启科技软件下载LLM排行榜首次更新GPT-4雄居榜首330亿参数小羊驼稳坐开源第一位

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新！GPT-4坚守榜首，GPT-3.5紧随其后，团队自家新发布的330亿参数Vicuna则勇夺开源第一。就在刚刚，这场「LLM排位赛」迎来了重磅更新！

这次，不仅增加了更多模型（已达28个），还推出了2个全新的评价标准。

与此同时，团队还公开了更新的Vicuna-v1.3系列模型，参数量为70亿、130亿和330亿，并提供了权重。

增强版LLM排行榜

GPT-3.5、Claude-v1和Claude-instant-v1三大巨头竞争激烈，在MT-bench得分上甚至有反超之势。此外，与专有模型相比，开源模型仍显劣势，即使是Vicuna-33B也难以匹敌。

然而，有例外，如谷歌PaLM2被发现落后于一众开源模型。

全新评价机制：MT-bench

尽管存在多种评估基准，但传统测试在人类偏好方面存在不足。最新论文「Judging LLM-as-a-judge」揭示了LLM评判者的可靠性问题，显示强大的LLM评判者如GPT-4与人类裁判偏好高度一致超过80%。

虽然使用得当，可扩展且解释性强，但潜在限制包括位置偏差、冗长偏差、自我增强偏差以及推理能力有限等问题。

结果分析

MT-Bench有效地区分性能差异

通过对28个模型全面评估，结果表明不同能力的LLM间存在显著区别，其得分与Chatbot Arena Elo评分高度相关。特别是MT-Bench引入，使得性能差距更加鲜明，从而展示出GPT-4与GPT-3.5/Claude，以及开源和专有之间的显著表现差异。

为了更深入了解各自特点，该团队选取几个代表性的LLM进行分析，并针对每类别展现它们在不同领域中的表现。这表明即便是在编码和推理方面，也还有改进空间。

比较6个模型8种能力：写作、角色扮演、推理、数学、编码信息提取自然科学人文科学

多轮对话能力的评估

对于所选模型在多轮对话中的表现，一些开源模式如Vicuna-7B及WizardLM-13B，在第一轮第二轮之间出现显著下降，而专业级专有模式则保持稳定的一致性。

另外，由于基于不同的架构或训练数据，如基于LLaMA或宽松调教Open-LLaMA等，还存在性能上的巨大差距。在第一轮第二轮中，对话质量按照10分打完，其中包括来自alpaca-13b和gpt-3.5-turbo回答，可以看出详细全面逻辑清晰判断反馈提供给用户指导决策过程，同时提升可解释性。

标签：现在最新科技产品、人工智能的概念、中国美女机器人售价多少一台、智能手表哪款好、人工智能是学什么