2025-02-28 智能 0
新智元导读:UC伯克利LLM排位赛再次更新,GPT-4巩固榜首位置!GPT-3.5紧随其后,330亿参数Vicuna冲至开源模型的领先地位。除了模型数量增加到28个外,这次还引入了两项全新的评价标准,并发布了Vicuna-v1.3系列模型。专有和开源模型间的差距显著,而PaLM2则落后于众多开源模型。这次更新不仅提升了评估LLM性能的MT-bench基准测试,还揭示了LLM作为评判者的可靠性问题,同时探讨了一些缓解策略。此外,团队分析了不同能力下的6个代表性LLM表现,并展示了在多轮对话中的得分差异,以及如何使用LLaMA等模型进行更宽松的对话。此举为人类决策提供了解释性结果,对于Chatbot Arena Elo评分与MT-Bench得分之间高度相关性的发现也颇具价值。