我能点亮科技树LLM排行榜首次更新GPT-4闪耀顶尖330亿参数小羊驼开源领跑

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新！GPT-4坚守榜首，GPT-3.5紧随其后，自家新发布的330亿参数Vicuna则稳坐开源第一。UC伯克利主导的「LLM排位赛」迎来首次重磅更新！这次，不仅加入了更多模型（目前已达到28个），还增加了2个全新的评价标准。而且，团队还发布了更新的Vicuna-v1.3系列模型，参数量为70亿、130亿和330亿，并公开了权重。

增强版LLM排行榜

在MT-bench得分上，GPT-3.5、Claude-v1和Claude-instant-v1竞争激烈，不分伯仲。与此相比，开源模型如Vicuna-33B显著落后，而谷歌PaLM2则未能超越它们。

全新评价机制：MT-bench

为了评估LLM的人类偏好，这些基准测试存在不足。最新论文「Judging LLM-as-a-judge」揭示了可靠性问题，但显示出像GPT-4这样的强大评判者可以对齐人类裁判的一致性超过80%。

结果分析

在最新一轮「排位赛」，28个模型接受全面评估。结果显示明显区别，而Chatbot Arena Elo评分高度相关。此外，与专有模型相比，如GPT-4与GPT-3.5/Claude之间，以及开源和专有之间，有着性能差距。

比较6个模型8种能力：写作、角色扮演、推理、数学、编码信息提取自然科学人文科学

多轮对话能力评估

在多轮对话中，由于第一、二轮表现下降，如Vicuna-7B和WizardLM-13B，在第一二轮得分明显低于专有模式。此外，更宽松模式间（如MPT-7B/Falcon40b/Open-LLaMA）也存在差异。

LLM作为评判者的可解释性

使用LLM进行判断还有优势，它们提供可解释结果。在一个MT-bench问题中，对自己的判断给出了详细反馈，有助于指导人类决策。

总结及计划发布数据集及扩展问题集，以供更广泛研究社区使用，将建立更丰富的数据集。

标签：如何理解智能的定义、十大智能家居公司排名、 ai难学还是ps难学、小米家装全套多少钱、万能电视机遥控器

上一篇：四川省软件测评中心确保数字化转型的质量与安全

下一篇：微观工程揭秘门芯片的奇妙世界

我能点亮科技树LLM排行榜首次更新GPT-4闪耀顶尖330亿参数小羊驼开源领跑

主题我是如何在家中用粉体设备打造小巧工坊的

煤炭分选机技术高效煤炭分选机器的运作原理

科技时代的相遇数字人与ChatGPT的对话犹如精致机器与活力灵魂的碰撞

水的海洋金钱的涟漪大桶之谜

政府对废旧设备回收有何政策支持措施