LLM排行榜首次更新GPT-4雄霸榜首330亿参数小羊驼稳坐开源第一位

2025-02-28 智能 0

新智元导读：UC伯克利LLM排位赛再次更新，GPT-4巩固榜首位置！GPT-3.5紧随其后，330亿参数Vicuna冲至开源模型的领先地位。除了模型数量增加到28个外，这次还引入了两项全新的评价标准，并发布了Vicuna-v1.3系列模型。专有和开源模型间的差距显著，而PaLM2则落后于众多开源模型。这次更新不仅提升了评估LLM性能的MT-bench基准测试，还揭示了LLM作为评判者的可靠性问题，同时探讨了一些缓解策略。此外，团队分析了不同能力下的6个代表性LLM表现，并展示了在多轮对话中的得分差异，以及如何使用LLaMA等模型进行更宽松的对话。此举为人类决策提供了解释性结果，对于Chatbot Arena Elo评分与MT-Bench得分之间高度相关性的发现也颇具价值。