科技小发明闪耀手工智慧显LLM排行榜更新GPT-4居首329亿参数小羊驼开源领先

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新！GPT-4坚守榜首，GPT-3.5紧随其后，自家新发布的330亿参数Vicuna则稳坐开源第一。就在刚刚，UC伯克利主导的「LLM排位赛」迎来了重磅变革！

这次，不仅加入了更多模型（共28个），还引入了2个全新的评价标准。

同时，团队也推出了更新至Vicuna-v1.3系列模型（参数量为70亿、130亿和330亿），权重已公开供大家使用。

增强版LLM排行榜

GPT-3.5、Claude-v1和Claude-instant-v1之间竞争激烈，不仅在MT-bench得分上接近，而且在Elo和MMLU得分上也有反超之势。

与专有模型相比，开源模型仍显著落后，即便是开源第一的Vicuna-33B也是如此。

然而，有例外情况，如谷歌PaLM2就略逊一筹于众多开源模型。

全新评价机制：MT-bench

虽然目前已有多种基准测试评估大语言模型性能，但这些基准存在不足，比如传统封闭式问题评测简化输出无法全面反映人类偏好。

最新研究论文「Judging LLM-as-a-judge」揭示了可靠性问题显示，与专家组或众包组人类裁判偏好高度一致性超过80%。

基于此，一致性水平可以媲美两名人类裁判，而单独答案评分能有效排名并匹配人类偏好，可作为扩展解释值，但潜在限制包括位置、长度、自我增强以及推理能力有限等。

不同LLM评判者的立场偏见分析

对于这些限制，探讨如何利用少样本评判、思维链评判、中参考基准及微调来缓解结果展示：

MT-Bench有效地区分不同能力间差距，

而且与Chatbot Arena Elo高相关度表现出明显差异。特别是MT-Bench引入，更鲜明地展现了各性能差距：

GPT-4对编码/推理表现更佳；Vicuna-13B数学提取类别中落后于GPT-3.5/Claude；表明开放项目还有改进空间。

比较6个模型8种能力，以及多轮对话分析，

显示强大专属模式保持一致，而宽松调整后的Open-LLaMA之间存在性能巨大差距。

关于可解释性的优势，每当用LLM进行判断，它们提供详细逻辑清晰反馈，并指导人作出明智决策。然而，在数学/推理打分时可能会出现错误，因此谨慎使用建议。

下一步计划发布对话数据以供社区广泛研究，并积极扩展问题集建立丰富数据集，以期更深入了解聊天机器人间差距。

标签：智能家居全屋定制、 ai的中文解释、人工智能是什么? 、 ai人工智能数据标注、可以做老婆的机器人