2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,自家新发布的330亿参数Vicuna则稳坐开源之冠。UC伯克利主导的「LLM排位赛」迎来首次重磅更新!
这次,团队不仅在排行榜中加入了更多模型(目前已达到28个),而且还增加了2个全新的评价标准。
与此同时,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,且权重已公开。
增强版LLM排行榜
显然,GPT-3.5、Claude-v1和Claude-instant-v1这三个模型之间竞争激烈。不仅在MT-bench得分上并驾齐驱,而且在诸如Elo和MMLU得分上也有所反超。
相比之下,即便是作为开源第一的Vicuna-33B,也存在一定差距。
当然,有例外。例如谷歌的PaLM2,就未能超过一众开源模型。
全新评价机制:MT-bench
尽管现在有多种评估大语言模型性能的基准测试,比如MMLU、HellaSwag和HumanEval等,
但这些基准测试在评估LLM的人类偏好时仍存在不足。
举例来说,这些传统基准测试通常是在封闭式问题(如多项选择题)上对LLM进行测试,并提供简洁输出作为评价。
此外,在最新论文「Judging LLM-as-a-judge」中,对于评判者的可靠性进行了一项系统研究——揭示了评判者可靠性的问题。
结果显示,如GPT-4这样强大的LLM评判者,与专家组或众包组的人类裁判偏好非常符合,一致性均超过80%,
这种一致性水平,可以与两个人类裁判间的一致性媲美,
单个答案评分也能有效地对模型进行排名,与人类偏好匹配良好,
因此,如果合理使用,可将LLM视作人类偏好的扩展解释近似值。
然而,当使用为判断者时,还会有一些潜在限制:
位置偏差,即可能倾向于第一个答案;
冗长偏差,即可能倾向于更长回答而忽略质量;
自我增强效应,即可能倾向于自己的回答;
推理能力有限,以数学推理打分时存在缺陷。
不同类型按比例调整
探讨如何利用少样本评定、思维链检测、基于参考物品检查以及微调以缓解这些限制。
结果分析
MT-Bench区分出了不同性能水平的大型语言模式
经过全面对28款模式进行考核后,不同能力级别的大型语言模式表现出明显差异,其得分与Chatbot Arena Elo成绩高度相关联。
尤其是引入MT-Bench,让我们清楚地看到:
GPT-4与GPT-3.5/Claude之间,以及开放软件及私人软件之间,都有着清晰可见的性能差异。
为了更深入了解各大型语言模式间差距,不同代表性的大型语言模式被选取并针对每个类别详细分析展示它们各自表现情况表明,在编码和推理方面,大型语言模式中的某些表现出更高水平成果,而其他特定的几个分类中,如提取信息、编码及数学任务,大型言语模块落后一些。这意味着开放软件还有改进空间待发现。
比较6款模块8种技能:写作角色扮演推理数学编码信息提取自然科学人文科学
多轮对话能力评价
接着分析所选模块在多轮交流中的成绩显示虽然一些开放软件初期表现良好,但随着交谈次数增加,他们逐渐失去优势。而那些拥有较高技术成就的大型私人软件,则始终保持一贯优质表现。此外,更宽松条件下的各种大小规模模块也产生了显著不同的效果表现在第一个回合以及第二回合内涵内容得到点数,每满分10点:
通过利用大型语言智能执行审查,我们可以获得透明度丰富的情报支持。下图展示了对于一个 MT-bench 问题给出的 GPT 的决策过程,其中包括来自 alpaca 和 gpt-turbo 的回答。在给予自己决定后的反馈里,它提供详尽精确逻辑清晰的情报供参考。UC Berkeley 研究认为这种审查方法对于指导人类做出更加明智决策十分有益:
总结起来,由 MT-BENCH 进行沟通机器人的排序能够区别他们,但是必须谨慎应用,因为它依然有误用风险特别是在数学/推理任务上的打分操作中。一旦准备就绪,将分享 Chatbot Arena 对话数据供广泛研究社区共享,同时正在积极扩充问题集,以包含高质量提示,并利用大型言语智能生成新问题建立更加丰富完善的地面实践库 MT-Bench - 1000 数据集。如果需要进一步了解,请查看以下链接 https://lmsys.org/blog/2023-06-22-leaderboard/