当前位置: 首页 - 智能 - 福建舰登场GPT-4闪耀榜首330亿参数小羊驼稳坐开源之巅

福建舰登场GPT-4闪耀榜首330亿参数小羊驼稳坐开源之巅

2025-02-28 智能 0

编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4稳坐榜首,GPT-3.5紧随其后,团队自家新发布的330亿参数Vicuna则冲至第五,代表了开源模型的最佳表现。福建舰带领专有模型强势崛起,而开源小羊驼在排行榜上仍有提升空间。

这次更新不仅增加了更多模型(现已达到28个),还引入了2个全新的评价标准,并发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,其权重已公开。

增强版LLM排行榜展现出GPT-3.5、Claude-v1和Claude-instant-v1之间激烈竞争,他们在MT-bench得分以及Elo和MMLU得分上都显示出了高度的一致性。相比之下,即便是开源第一的Vicuna-33B也显得有些落后。而谷歌的PaLM2则未能与这些开源模型并肩而立。

全新评价机制:MT-bench

虽然目前已经有一些评估大语言模型性能基准测试,但它们在评估LLM的人类偏好方面存在不足。最新论文「Judging LLM-as-a-judge」揭示了LLM评判者的可靠性问题,并展示了一种使用GPT-4作为评判者,与人类裁判一致性超过80%的情况。这表明,如果合理使用,LLM可以作为人类偏好的可扩展、可解释近似值。

然而,当LLM作为评判者时,也存在位置偏差、冗长偏差、自我增强偏差以及推理能力有限等限制。为了缓解这些限制,团队提出了少样本评判、中间链式思维评断、基于参考的事实检查和微调事实检验等方法。

结果分析

MT-Bench有效地区分不同能力的LLMs

通过对28个模型进行全面评估,该项研究显示,不同能力的LLMs之间存在明显区别,同时与Chatbot Arena Elo成绩呈高度相关性。在特定领域,如编码和推理中,GPT-4超越了GPT-3.5/Claude;而Vicuna-13B在提取信息、编码及数学类别中显著落后,这表明开放资源仍需进一步改进。

多轮对话能力分析

对于所选6个典型模型在多轮对话中的表现,也进行了解析,其中发现开放资源如Vicuna7B及WizardLM13B,在第一、二轮之间性能急剧下降,而专有资源保持一致性。此外,更宽松或调整后的Open-LLaMA型态与更严格或调整后的LaMa型态间亦出现巨大差距。

此外,对于每轮聊天机器人的MT-bench得分满分10分。

关于如何用这种方式来做决策还有待探索,以提高整个系统效率。

最后,让我们期待他们未来将会继续完善这个系统,为我们的生活带来更多便利。

标签: 全屋智能家居控制系统中国人工智能公司排名中国美女机器人售价多少一台智能医学工程是坑吗ai设备有哪些