福建舰登场GPT-4闪耀榜首330亿参数小羊驼稳坐开源之巅

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新！GPT-4稳坐榜首，GPT-3.5紧随其后，团队自家新发布的330亿参数Vicuna则冲至第五，代表了开源模型的最佳表现。福建舰带领专有模型强势崛起，而开源小羊驼在排行榜上仍有提升空间。

这次更新不仅增加了更多模型（现已达到28个），还引入了2个全新的评价标准，并发布了更新的Vicuna-v1.3系列模型，参数量为70亿、130亿和330亿，其权重已公开。

增强版LLM排行榜展现出GPT-3.5、Claude-v1和Claude-instant-v1之间激烈竞争，他们在MT-bench得分以及Elo和MMLU得分上都显示出了高度的一致性。相比之下，即便是开源第一的Vicuna-33B也显得有些落后。而谷歌的PaLM2则未能与这些开源模型并肩而立。

全新评价机制：MT-bench

虽然目前已经有一些评估大语言模型性能基准测试，但它们在评估LLM的人类偏好方面存在不足。最新论文「Judging LLM-as-a-judge」揭示了LLM评判者的可靠性问题，并展示了一种使用GPT-4作为评判者，与人类裁判一致性超过80%的情况。这表明，如果合理使用，LLM可以作为人类偏好的可扩展、可解释近似值。

然而，当LLM作为评判者时，也存在位置偏差、冗长偏差、自我增强偏差以及推理能力有限等限制。为了缓解这些限制，团队提出了少样本评判、中间链式思维评断、基于参考的事实检查和微调事实检验等方法。

结果分析

MT-Bench有效地区分不同能力的LLMs

通过对28个模型进行全面评估，该项研究显示，不同能力的LLMs之间存在明显区别，同时与Chatbot Arena Elo成绩呈高度相关性。在特定领域，如编码和推理中,GPT-4超越了GPT-3.5/Claude；而Vicuna-13B在提取信息、编码及数学类别中显著落后，这表明开放资源仍需进一步改进。

多轮对话能力分析

对于所选6个典型模型在多轮对话中的表现，也进行了解析，其中发现开放资源如Vicuna7B及WizardLM13B，在第一、二轮之间性能急剧下降，而专有资源保持一致性。此外，更宽松或调整后的Open-LLaMA型态与更严格或调整后的LaMa型态间亦出现巨大差距。

此外，对于每轮聊天机器人的MT-bench得分满分10分。

关于如何用这种方式来做决策还有待探索，以提高整个系统效率。

最后，让我们期待他们未来将会继续完善这个系统，为我们的生活带来更多便利。

标签：全屋智能家居控制系统、中国人工智能公司排名、中国美女机器人售价多少一台、智能医学工程是坑吗、 ai设备有哪些

上一篇：晶片之巔台積電的無形領域

下一篇：科技时代的广撒网

福建舰登场GPT-4闪耀榜首330亿参数小羊驼稳坐开源之巅

Aspen固定床反应器在化学工艺中的应用探究

中国制药装备行业协会推动产业升级与国际合作的桥梁角色

废旧物资拍卖网-从废旧到新贵揭秘垃圾变金的奇迹

汽车零部件的四大分类开启智能驾驶新篇章

精细剪裁探索切制艺术的魅力与技巧