当前位置: 首页 - 智能 - 和平精英免费开启科技软件下载LLM排行榜首次更新GPT-4雄居榜首330亿参数小羊驼稳坐开源第一位

和平精英免费开启科技软件下载LLM排行榜首次更新GPT-4雄居榜首330亿参数小羊驼稳坐开源第一位

2025-02-28 智能 0

编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,团队自家新发布的330亿参数Vicuna则勇夺开源第一。就在刚刚,这场「LLM排位赛」迎来了重磅更新!

这次,不仅增加了更多模型(已达28个),还推出了2个全新的评价标准。

与此同时,团队还公开了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,并提供了权重。

增强版LLM排行榜

GPT-3.5、Claude-v1和Claude-instant-v1三大巨头竞争激烈,在MT-bench得分上甚至有反超之势。此外,与专有模型相比,开源模型仍显劣势,即使是Vicuna-33B也难以匹敌。

然而,有例外,如谷歌PaLM2被发现落后于一众开源模型。

全新评价机制:MT-bench

尽管存在多种评估基准,但传统测试在人类偏好方面存在不足。最新论文「Judging LLM-as-a-judge」揭示了LLM评判者的可靠性问题,显示强大的LLM评判者如GPT-4与人类裁判偏好高度一致超过80%。

虽然使用得当,可扩展且解释性强,但潜在限制包括位置偏差、冗长偏差、自我增强偏差以及推理能力有限等问题。

结果分析

MT-Bench有效地区分性能差异

通过对28个模型全面评估,结果表明不同能力的LLM间存在显著区别,其得分与Chatbot Arena Elo评分高度相关。特别是MT-Bench引入,使得性能差距更加鲜明,从而展示出GPT-4与GPT-3.5/Claude,以及开源和专有之间的显著表现差异。

为了更深入了解各自特点,该团队选取几个代表性的LLM进行分析,并针对每类别展现它们在不同领域中的表现。这表明即便是在编码和推理方面,也还有改进空间。

比较6个模型8种能力:写作、角色扮演、推理、数学、编码信息提取自然科学人文科学

多轮对话能力的评估

对于所选模型在多轮对话中的表现,一些开源模式如Vicuna-7B及WizardLM-13B,在第一轮第二轮之间出现显著下降,而专业级专有模式则保持稳定的一致性。

另外,由于基于不同的架构或训练数据,如基于LLaMA或宽松调教Open-LLaMA等,还存在性能上的巨大差距。在第一轮第二轮中,对话质量按照10分打完,其中包括来自alpaca-13b和gpt-3.5-turbo回答,可以看出详细全面逻辑清晰判断反馈提供给用户指导决策过程,同时提升可解释性。

标签: 现在最新科技产品人工智能的概念中国美女机器人售价多少一台智能手表哪款好人工智能是学什么