2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新,GPT-4稳坐榜首,GPT-3.5紧随其后。Vicuna,代表开源模型,以330亿参数强势冲至第五。UC伯克利主导的「LLM排位赛」迎来首次重磅更新!这次不仅加入了更多模型(共28个),还增加了2个全新的评价标准,并发布了更新的Vicuna-v1.3系列模型。
与此同时,团队推出了增强版LLM排行榜。GPT-3.5、Claude-v1和Claude-instant-v1三者在MT-bench得分上竞争激烈,而开源模型如Vicuna-33B相比之下显得落后,但仍有例外,如谷歌的PaLM2。
全新评价机制:MT-bench
传统基准测试不足以评估LLM的人类偏好,因此团队发表了一项研究——揭示了LLM评判者的可靠性问题。结果显示,与专家组或众包组人类裁判一致性超过80%。
然而,当使用为评判者时,存在位置偏差、冗长偏差、自我增强偏差和推理能力有限等限制。为了缓解这些限制,探讨了少样本评判、思维链评判、基于参考的评判和微调评判方法。
结果分析
MT-Bench有效地区分不同能力间性能差异
在最新排名中,对28个模型进行全面评价显示,不同能力间存在明显区别,其Chatbot Arena Elo得分呈高度相关性。
特别是MT-Bench引入,对于性能差距给予鲜明展现。
为了更深入了解各LLM之间差距,选择几个有代表性的进行分析。
结果显示,与GPT-3.5/Claude相比,GPT-4在编码和推理方面表现出更高性能,而Vicuna-13B在提取、编码及数学类别中落后。
比较6个模型8种能力:写作角色扮演推理数学编码信息提取自然科学人文科学
多轮对话能力的评估
选定的开源模型第一轮第二轮表现下降,而专有模型保持一致性。
另外,更宽松或调整后的Open-LLaMA也存在明显性能差距。
考虑到使用时可能出现错误尤其是在数学/推理问题打分时,
总结而言,由于提供可解释性,它们能够指导人类做出更明智决策。
计划发布对话数据并扩展问题集建立丰富数据集—敬请期待!
上一篇:鹤壁职业技术学院的未来之光在哪里