当前位置: 首页 - 智能 - GPT-4雄霸榜首330亿参数强势领先开源之星小羊驼稳坐第二论文研究新篇章

GPT-4雄霸榜首330亿参数强势领先开源之星小羊驼稳坐第二论文研究新篇章

2025-02-28 智能 0

编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,330亿参数Vicuna则稳坐开源模型第一。UC伯克利主导的「LLM排位赛」迎来重磅更新,这次不仅加入了更多模型(已达28个),还增强了2个全新的评价标准,并发布了更新的Vicuna-v1.3系列模型。

MT-bench评估机制引入新标准

与传统基准测试相比,MT-bench在评估大语言模型(LLM)性能时提供了更为全面的评价体系。最新研究论文「Judging LLM-as-a-judge」揭示了LLM评判者的可靠性问题,但结果显示GPT-4能够与专家组和众包组的人类裁判偏好一致性超过80%。

不同LLM评判者存在立场偏见

虽然MT-Bench有效地区分不同能力的LLM,但也存在位置偏差、冗长偏差、自我增强偏差和推理能力有限等限制。团队探讨利用少样本评判、思维链评判、基于参考的评判和微调评判缓解这些限制。

结果分析展示性能差距

在这次“排位赛”中,对28个模型进行全面评估,显示不同能力的LLM之间存在明显区别,与Chatbot Arena Elo得分呈高度相关性。特别是MT-Bench引入鲜明地展示出GPT-4与GPT-3.5/Claude以及开源和专有模型之间性能差距。

多轮对话能力分析

对于多轮对话得分分析显示开源模型在第一轮和第二轮表现下降,而强大的专有模式保持一致性。此外,基于LLaMA及更宽松模块间也存在明显性能差异。

可解释性的价值

使用LSTM进行判断提供了一种可解释性的优势,如下图所示,其中包括来自alpaca-13b和gpt-3.5-turbo回答。

这种评价方式指导人类做出更明智决策,有助于提高系统透明度。

总结来说,虽然需要谨慎使用,因为可能仍有错误发生尤其是在数学/推理问题上,

未来计划包括发布对话数据以供社区广泛研究,以及建立更加丰富的问题集,即Chatbot Arena MT-Bench 1K 数据集。

标签: 十大智能家居排名qq怎么制作ai人工智能中国工业软件公司排名智能手机科技产品发布会