2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,自家新发布的330亿参数Vicuna则稳坐开源第一。就在刚刚,UC伯克利主导的「LLM排位赛」迎来了重磅变革!
这次,不仅加入了更多模型(共28个),还引入了2个全新的评价标准。
同时,团队也推出了更新至Vicuna-v1.3系列模型(参数量为70亿、130亿和330亿),权重已公开供大家使用。
增强版LLM排行榜
GPT-3.5、Claude-v1和Claude-instant-v1之间竞争激烈,不仅在MT-bench得分上接近,而且在Elo和MMLU得分上也有反超之势。
与专有模型相比,开源模型仍显著落后,即便是开源第一的Vicuna-33B也是如此。
然而,有例外情况,如谷歌PaLM2就略逊一筹于众多开源模型。
全新评价机制:MT-bench
虽然目前已有多种基准测试评估大语言模型性能,但这些基准存在不足,比如传统封闭式问题评测简化输出无法全面反映人类偏好。
最新研究论文「Judging LLM-as-a-judge」揭示了可靠性问题显示,与专家组或众包组人类裁判偏好高度一致性超过80%。
基于此,一致性水平可以媲美两名人类裁判,而单独答案评分能有效排名并匹配人类偏好,可作为扩展解释值,但潜在限制包括位置、长度、自我增强以及推理能力有限等。
不同LLM评判者的立场偏见分析
对于这些限制,探讨如何利用少样本评判、思维链评判、中参考基准及微调来缓解结果展示:
MT-Bench有效地区分不同能力间差距,
而且与Chatbot Arena Elo高相关度表现出明显差异。特别是MT-Bench引入,更鲜明地展现了各性能差距:
GPT-4对编码/推理表现更佳;Vicuna-13B数学提取类别中落后于GPT-3.5/Claude;表明开放项目还有改进空间。
比较6个模型8种能力,以及多轮对话分析,
显示强大专属模式保持一致,而宽松调整后的Open-LLaMA之间存在性能巨大差距。
关于可解释性的优势,每当用LLM进行判断,它们提供详细逻辑清晰反馈,并指导人作出明智决策。然而,在数学/推理打分时可能会出现错误,因此谨慎使用建议。
下一步计划发布对话数据以供社区广泛研究,并积极扩展问题集建立丰富数据集,以期更深入了解聊天机器人间差距。