2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,团队自家新发布的330亿参数Vicuna则勇夺开源第一。就在刚刚,UC伯克利主导的「LLM排位赛」迎来首次重磅变革!
这回,团队不仅在排行榜中引入了更多模型(目前已达28个),还增添了2个全新的评价标准。
同时,团队也推出了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,并公开了权重。
强化版LLM排行榜
显而易见的是,GPT-3.5、Claude-v1和Claude-instant-v1这三个模型间竞争激烈,不仅在MT-bench得分上并驾齐驱,而且在Elo和MMLU得分上有所交替。
与这些专有模型相比,开源模型虽佳,却仍显劣势,即便是作为开源领军的Vicuna-33B也是如此。
然而,也有一例外情况,比如谷歌PaLM2,它未能超越众多开源模式。
全新评价机制:MT-bench
虽然现在已经有许多评估大语言模型性能的基准测试,如MMLU、HellaSwag和HumanEval等,
但它们评估人类偏好的不足之处依然明显。
例如,这些传统基准测试通常是在封闭式问题(如多项选择题)上对LLM进行测试,并提供简洁输出作为评价标准。此外,
论文「Judging LLM-as-a-judge」中还揭示了使用强大的LLM评判者可靠性问题。结果显示,与专家组或众包组的人类裁判偏好一致性均超过80%,
甚至与两个人类裁判的一致性相当。而基于GPT-4单独答案评分,可以有效排名并匹配人类偏好。
不过,当使用LLMs作为评判时,还存在一些潜在限制:
位置偏差,即可能倾向于第一个选项;
冗长偏差,即可能更喜欢较长回答而忽视质量;
自我增强偏差,即可能更倾向于自己的回答;
推理能力有限,对数学推理打分时存在缺陷。
不同LLMs之间立场偏见
对于这些限制,一些缓解方法被探讨,如少样本评判、思维链评判、基于参考的微调,以及微调以减轻影响。
结果分析
MT-Bench区分不同能力间性能差异
经过全面对28个模型进行检验,我们发现各种能力间存在明显区别,其Chatbot Arena Elo得分高度相关。
特别是MT-Bench展示出:
GPT-4与GPT-3.5/Claude以及开源/专有间,有着明显性能差距。
为了深入理解不同性能差距,我们选取几个典型代表进行比较分析。在编码与推理方面表现卓越的是GPT-4,而Vicuna 在提取及数学等特定领域落后于前辈。这表明开放系统还有改进空间待发掘。
我们对6种技能(写作角色扮演、推理数学编码信息提取自然科学人文科学)的8种能力进行比较。针对多轮会话功能也展现了其价值,因为它能够识别哪些可以持续高效地保持互动水平,同时指出了某些开放系统需要提高的地方;此外,由于数据集大小有限,有必要继续扩展该项目,以确保所有涉及到的数据都能够得到充足利用以实现精确度提升。
总结来说,在通过MT-Bench来判断不同的聊天机器人的表现时,它们之间表现出的巨大差异很直观,但当考虑到它是否完全可信任的时候,那就另当别论了,因为即使最先进技术也有局限性,比如计算复杂的问题解答过程中的错误率增加,这样的挑战需要进一步研究解决。