当前位置: 首页 - 智能 - 科技小发明闪耀手工智慧显LLM排行榜更新GPT-4居首329亿参数小羊驼开源领先

科技小发明闪耀手工智慧显LLM排行榜更新GPT-4居首329亿参数小羊驼开源领先

2025-02-28 智能 0

编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,自家新发布的330亿参数Vicuna则稳坐开源第一。就在刚刚,UC伯克利主导的「LLM排位赛」迎来了重磅变革!

这次,不仅加入了更多模型(共28个),还引入了2个全新的评价标准。

同时,团队也推出了更新至Vicuna-v1.3系列模型(参数量为70亿、130亿和330亿),权重已公开供大家使用。

增强版LLM排行榜

GPT-3.5、Claude-v1和Claude-instant-v1之间竞争激烈,不仅在MT-bench得分上接近,而且在Elo和MMLU得分上也有反超之势。

与专有模型相比,开源模型仍显著落后,即便是开源第一的Vicuna-33B也是如此。

然而,有例外情况,如谷歌PaLM2就略逊一筹于众多开源模型。

全新评价机制:MT-bench

虽然目前已有多种基准测试评估大语言模型性能,但这些基准存在不足,比如传统封闭式问题评测简化输出无法全面反映人类偏好。

最新研究论文「Judging LLM-as-a-judge」揭示了可靠性问题显示,与专家组或众包组人类裁判偏好高度一致性超过80%。

基于此,一致性水平可以媲美两名人类裁判,而单独答案评分能有效排名并匹配人类偏好,可作为扩展解释值,但潜在限制包括位置、长度、自我增强以及推理能力有限等。

不同LLM评判者的立场偏见分析

对于这些限制,探讨如何利用少样本评判、思维链评判、中参考基准及微调来缓解结果展示:

MT-Bench有效地区分不同能力间差距,

而且与Chatbot Arena Elo高相关度表现出明显差异。特别是MT-Bench引入,更鲜明地展现了各性能差距:

GPT-4对编码/推理表现更佳;Vicuna-13B数学提取类别中落后于GPT-3.5/Claude;表明开放项目还有改进空间。

比较6个模型8种能力,以及多轮对话分析,

显示强大专属模式保持一致,而宽松调整后的Open-LLaMA之间存在性能巨大差距。

关于可解释性的优势,每当用LLM进行判断,它们提供详细逻辑清晰反馈,并指导人作出明智决策。然而,在数学/推理打分时可能会出现错误,因此谨慎使用建议。

下一步计划发布对话数据以供社区广泛研究,并积极扩展问题集建立丰富数据集,以期更深入了解聊天机器人间差距。

标签: 智能家居全屋定制ai的中文解释人工智能是什么?ai人工智能数据标注可以做老婆的机器人