2025-02-28 智能 0
创新是引领发展的第一动力,UC伯克利LLM排位赛迎来重大更新!GPT-4稳坐榜首,GPT-3.5紧随其后,而团队自家新发布的330亿参数Vicuna则冲至第五,展现开源模型的强大实力。最新版本不仅增加了更多模型(共28个),还引入了两个全新的评价标准,并推出了70亿、130亿和330亿参数的Vicuna-v1.3系列模型,其权重已公开。
全新评价机制:MT-bench
传统基准测试在评估LLM的人类偏好时存在不足,团队通过最新论文「Judging LLM-as-a-judge」揭示了可靠性问题。结果显示,与专家组和众包组人类裁判相比,一致性均超过80%,可以作为人类偏好的可扩展、可解释近似值。
然而,当LLM作为评判者时,还存在位置偏差、冗长偏差、自我增强偏差和推理能力有限等限制。团队探讨如何利用少样本评判、思维链评判、基于参考的评判和微调评判进行缓解。
结果分析
MT-Bench有效地区分了不同能力LLM之间的性能差异。在排位赛中,对28个模型进行全面评估,展示出GPT-4与GPT-3.5/Claude以及开源与专有模型之间有着明显性能差距。几个代表性的LLM在各项能力下的表现也被深入分析,其中GPT-4在编码和推理方面表现突出,而Vicuna-13B在提取、编码及数学方面略显落后。
多轮对话能力的评估
选定的模型在多轮对话中的得分显示开源模型第一轮第二轮性能下降,而强大的专有模式保持一致性。此外,更宽松或调整后的Open-LLaMA之间也有明显性能差距。
LLLMA提供了一种更为直观的人类偏好评价方式,为指导决策提供详细反馈,同时也为研究社区开放数据,以便于更广泛地使用Chatbot Arena对话数据。此外,正在积极扩展问题集并构建更丰富的MT-Bench-1K数据集,以进一步提升评价效果。
上一篇:国产芯片崛起硅新霸主的征程