2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,330亿参数Vicuna则稳坐开源模型第一。UC伯克利主导的「LLM排位赛」迎来重磅更新,这次不仅加入了更多模型(已达28个),还增强了2个全新的评价标准,并发布了更新的Vicuna-v1.3系列模型。
MT-bench评估机制引入新标准
与传统基准测试相比,MT-bench在评估大语言模型(LLM)性能时提供了更为全面的评价体系。最新研究论文「Judging LLM-as-a-judge」揭示了LLM评判者的可靠性问题,但结果显示GPT-4能够与专家组和众包组的人类裁判偏好一致性超过80%。
不同LLM评判者存在立场偏见
虽然MT-Bench有效地区分不同能力的LLM,但也存在位置偏差、冗长偏差、自我增强偏差和推理能力有限等限制。团队探讨利用少样本评判、思维链评判、基于参考的评判和微调评判缓解这些限制。
结果分析展示性能差距
在这次“排位赛”中,对28个模型进行全面评估,显示不同能力的LLM之间存在明显区别,与Chatbot Arena Elo得分呈高度相关性。特别是MT-Bench引入鲜明地展示出GPT-4与GPT-3.5/Claude以及开源和专有模型之间性能差距。
多轮对话能力分析
对于多轮对话得分分析显示开源模型在第一轮和第二轮表现下降,而强大的专有模式保持一致性。此外,基于LLaMA及更宽松模块间也存在明显性能差异。
可解释性的价值
使用LSTM进行判断提供了一种可解释性的优势,如下图所示,其中包括来自alpaca-13b和gpt-3.5-turbo回答。
这种评价方式指导人类做出更明智决策,有助于提高系统透明度。
总结来说,虽然需要谨慎使用,因为可能仍有错误发生尤其是在数学/推理问题上,
未来计划包括发布对话数据以供社区广泛研究,以及建立更加丰富的问题集,即Chatbot Arena MT-Bench 1K 数据集。