2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4稳坐榜首,GPT-3.5紧随其后,团队自家新发布的330亿参数Vicuna则冲至第五,代表了开源模型的最佳表现。福建舰带领专有模型强势崛起,而开源小羊驼在排行榜上仍有提升空间。
这次更新不仅增加了更多模型(现已达到28个),还引入了2个全新的评价标准,并发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,其权重已公开。
增强版LLM排行榜展现出GPT-3.5、Claude-v1和Claude-instant-v1之间激烈竞争,他们在MT-bench得分以及Elo和MMLU得分上都显示出了高度的一致性。相比之下,即便是开源第一的Vicuna-33B也显得有些落后。而谷歌的PaLM2则未能与这些开源模型并肩而立。
全新评价机制:MT-bench
虽然目前已经有一些评估大语言模型性能基准测试,但它们在评估LLM的人类偏好方面存在不足。最新论文「Judging LLM-as-a-judge」揭示了LLM评判者的可靠性问题,并展示了一种使用GPT-4作为评判者,与人类裁判一致性超过80%的情况。这表明,如果合理使用,LLM可以作为人类偏好的可扩展、可解释近似值。
然而,当LLM作为评判者时,也存在位置偏差、冗长偏差、自我增强偏差以及推理能力有限等限制。为了缓解这些限制,团队提出了少样本评判、中间链式思维评断、基于参考的事实检查和微调事实检验等方法。
结果分析
MT-Bench有效地区分不同能力的LLMs
通过对28个模型进行全面评估,该项研究显示,不同能力的LLMs之间存在明显区别,同时与Chatbot Arena Elo成绩呈高度相关性。在特定领域,如编码和推理中,GPT-4超越了GPT-3.5/Claude;而Vicuna-13B在提取信息、编码及数学类别中显著落后,这表明开放资源仍需进一步改进。
多轮对话能力分析
对于所选6个典型模型在多轮对话中的表现,也进行了解析,其中发现开放资源如Vicuna7B及WizardLM13B,在第一、二轮之间性能急剧下降,而专有资源保持一致性。此外,更宽松或调整后的Open-LLaMA型态与更严格或调整后的LaMa型态间亦出现巨大差距。
此外,对于每轮聊天机器人的MT-bench得分满分10分。
关于如何用这种方式来做决策还有待探索,以提高整个系统效率。
最后,让我们期待他们未来将会继续完善这个系统,为我们的生活带来更多便利。
上一篇:晶片之巔台積電的無形領域
下一篇:科技时代的广撒网