2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,自家新发布的330亿参数Vicuna则稳坐开源第一。UC伯克利主导的「LLM排位赛」迎来首次重磅更新!这次,不仅加入了更多模型(目前已达到28个),还增加了2个全新的评价标准。而且,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,并公开了权重。
增强版LLM排行榜
在MT-bench得分上,GPT-3.5、Claude-v1和Claude-instant-v1竞争激烈,不分伯仲。与此相比,开源模型如Vicuna-33B显著落后,即便是专有模型PaLM2也未能超越开源群体。
全新评价机制:MT-bench
传统基准测试不足以评估LLM的人类偏好,因此团队提出了一套全新的评价标准——MT-Bench。通过系统研究揭示了评判者可靠性问题,最终发现GPT-4能够与专家组和众包组人类裁判一致性超过80%。
结果分析
28个模型全面评估显示明显性能差异,与Chatbot Arena Elo评分高度相关。特别是MT-Bench引入,让我们清晰地看到了不同能力间以及开源与专有之间的差距。在编码和推理方面,GPT-4表现突出,而在提取、编码和数学等特定领域,Vicuna-13B明显落后,这表明开放来源模型还有改进空间。
多轮对话能力的评估
在多轮对话中,强大的专有模型保持一致性,而开放来源模式在第一、二轮对话时表现下降。此外,更宽松但基于LLaMA或调整后的Open-LLaMA之间存在性能差距。
LLM评判者的可解释性
使用LLM进行判断带来的一个优势是提供可解释性的结果,比如GPT-4给出的详细反馈,有助于指导人类决策。此外,在使用时应谨慎,因为可能存在错误尤其是在数学/推理问题打分时。
下一步计划
未来计划发布Chatbot Arena对话数据供研究社区使用,并扩展问题集建立更丰富的MT-Bench数据集。