2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,自家新发布的330亿参数Vicuna则稳坐开源第一。UC伯克利主导的「LLM排位赛」迎来首次重磅更新!这次,不仅加入了更多模型(目前已达到28个),还增加了2个全新的评价标准。而且,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,并公开了权重。
增强版LLM排行榜
在MT-bench得分上,GPT-3.5、Claude-v1和Claude-instant-v1竞争激烈,不分伯仲。与此相比,开源模型如Vicuna-33B显著落后,而谷歌PaLM2则未能超越它们。
全新评价机制:MT-bench
为了评估LLM的人类偏好,这些基准测试存在不足。最新论文「Judging LLM-as-a-judge」揭示了可靠性问题,但显示出像GPT-4这样的强大评判者可以对齐人类裁判的一致性超过80%。
结果分析
在最新一轮「排位赛」,28个模型接受全面评估。结果显示明显区别,而Chatbot Arena Elo评分高度相关。此外,与专有模型相比,如GPT-4与GPT-3.5/Claude之间,以及开源和专有之间,有着性能差距。
比较6个模型8种能力:写作、角色扮演、推理、数学、编码信息提取自然科学人文科学
多轮对话能力评估
在多轮对话中,由于第一、二轮表现下降,如Vicuna-7B和WizardLM-13B,在第一二轮得分明显低于专有模式。此外,更宽松模式间(如MPT-7B/Falcon40b/Open-LLaMA)也存在差异。
LLM作为评判者的可解释性
使用LLM进行判断还有优势,它们提供可解释结果。在一个MT-bench问题中,对自己的判断给出了详细反馈,有助于指导人类决策。
总结及计划发布数据集及扩展问题集,以供更广泛研究社区使用,将建立更丰富的数据集。
下一篇:微观工程揭秘门芯片的奇妙世界