当前位置：首页 - 智能 - GPT-4雄霸榜首330亿参数强势领先开源之星小羊驼稳坐第二论文研究新篇章

GPT-4雄霸榜首330亿参数强势领先开源之星小羊驼稳坐第二论文研究新篇章

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新！GPT-4坚守榜首，GPT-3.5紧随其后，330亿参数Vicuna则稳坐开源模型第一。UC伯克利主导的「LLM排位赛」迎来重磅更新，这次不仅加入了更多模型（已达28个），还增强了2个全新的评价标准，并发布了更新的Vicuna-v1.3系列模型。

MT-bench评估机制引入新标准

与传统基准测试相比，MT-bench在评估大语言模型（LLM）性能时提供了更为全面的评价体系。最新研究论文「Judging LLM-as-a-judge」揭示了LLM评判者的可靠性问题，但结果显示GPT-4能够与专家组和众包组的人类裁判偏好一致性超过80%。

不同LLM评判者存在立场偏见

虽然MT-Bench有效地区分不同能力的LLM，但也存在位置偏差、冗长偏差、自我增强偏差和推理能力有限等限制。团队探讨利用少样本评判、思维链评判、基于参考的评判和微调评判缓解这些限制。

结果分析展示性能差距

在这次“排位赛”中，对28个模型进行全面评估，显示不同能力的LLM之间存在明显区别，与Chatbot Arena Elo得分呈高度相关性。特别是MT-Bench引入鲜明地展示出GPT-4与GPT-3.5/Claude以及开源和专有模型之间性能差距。

多轮对话能力分析

对于多轮对话得分分析显示开源模型在第一轮和第二轮表现下降，而强大的专有模式保持一致性。此外，基于LLaMA及更宽松模块间也存在明显性能差异。

可解释性的价值

使用LSTM进行判断提供了一种可解释性的优势，如下图所示，其中包括来自alpaca-13b和gpt-3.5-turbo回答。

这种评价方式指导人类做出更明智决策，有助于提高系统透明度。

总结来说，虽然需要谨慎使用，因为可能仍有错误发生尤其是在数学/推理问题上，

未来计划包括发布对话数据以供社区广泛研究，以及建立更加丰富的问题集，即Chatbot Arena MT-Bench 1K 数据集。

标签：十大智能家居排名、 qq怎么制作ai人工智能、中国工业软件公司排名、智能手机、科技产品发布会

上一篇：Plugable AMS-5IN1E 扩展坞发布专为 MacBook Pro 和其他苹果 Mac 设

下一篇：高新技术企业认定中介机构-创新驱动成长引领深度剖析高新技术企业认定中介机构的作用与挑战

相关推荐

推荐资讯

热门文章