2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,团队自家新发布的330亿参数Vicuna则勇夺开源第一。就在刚刚,这场「LLM排位赛」迎来了重磅更新!
这次,不仅增加了更多模型(已达28个),还推出了2个全新的评价标准。
与此同时,团队还公开了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,并提供了权重。
增强版LLM排行榜
GPT-3.5、Claude-v1和Claude-instant-v1三大巨头竞争激烈,在MT-bench得分上甚至有反超之势。此外,与专有模型相比,开源模型仍显劣势,即使是Vicuna-33B也难以匹敌。
然而,有例外,如谷歌PaLM2被发现落后于一众开源模型。
全新评价机制:MT-bench
尽管存在多种评估基准,但传统测试在人类偏好方面存在不足。最新论文「Judging LLM-as-a-judge」揭示了LLM评判者的可靠性问题,显示强大的LLM评判者如GPT-4与人类裁判偏好高度一致超过80%。
虽然使用得当,可扩展且解释性强,但潜在限制包括位置偏差、冗长偏差、自我增强偏差以及推理能力有限等问题。
结果分析
MT-Bench有效地区分性能差异
通过对28个模型全面评估,结果表明不同能力的LLM间存在显著区别,其得分与Chatbot Arena Elo评分高度相关。特别是MT-Bench引入,使得性能差距更加鲜明,从而展示出GPT-4与GPT-3.5/Claude,以及开源和专有之间的显著表现差异。
为了更深入了解各自特点,该团队选取几个代表性的LLM进行分析,并针对每类别展现它们在不同领域中的表现。这表明即便是在编码和推理方面,也还有改进空间。
比较6个模型8种能力:写作、角色扮演、推理、数学、编码信息提取自然科学人文科学
多轮对话能力的评估
对于所选模型在多轮对话中的表现,一些开源模式如Vicuna-7B及WizardLM-13B,在第一轮第二轮之间出现显著下降,而专业级专有模式则保持稳定的一致性。
另外,由于基于不同的架构或训练数据,如基于LLaMA或宽松调教Open-LLaMA等,还存在性能上的巨大差距。在第一轮第二轮中,对话质量按照10分打完,其中包括来自alpaca-13b和gpt-3.5-turbo回答,可以看出详细全面逻辑清晰判断反馈提供给用户指导决策过程,同时提升可解释性。