1.6年级一等奖科技手抄报LLM排行榜首次更新GPT-4居榜首330亿参数小羊驼位列开源第一

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新！GPT-4坚守榜首，GPT-3.5紧随其后，团队自家新发布的330亿参数Vicuna则勇夺开源第一。就在刚刚，UC伯克利主导的「LLM排位赛」迎来首次重磅变革！

这回，团队不仅在排行榜中引入了更多模型（目前已达28个），还增添了2个全新的评价标准。

同时，团队也推出了更新的Vicuna-v1.3系列模型，参数量为70亿、130亿和330亿，并公开了权重。

强化版LLM排行榜

显而易见的是,GPT-3.5、Claude-v1和Claude-instant-v1这三个模型间竞争激烈，不仅在MT-bench得分上并驾齐驱，而且在Elo和MMLU得分上有所交替。

与这些专有模型相比，开源模型虽佳，却仍显劣势，即便是作为开源领军的Vicuna-33B也是如此。

然而，也有一例外情况，比如谷歌PaLM2，它未能超越众多开源模式。

全新评价机制：MT-bench

虽然现在已经有许多评估大语言模型性能的基准测试，如MMLU、HellaSwag和HumanEval等，

但它们评估人类偏好的不足之处依然明显。

例如，这些传统基准测试通常是在封闭式问题（如多项选择题）上对LLM进行测试，并提供简洁输出作为评价标准。此外，

论文「Judging LLM-as-a-judge」中还揭示了使用强大的LLM评判者可靠性问题。结果显示，与专家组或众包组的人类裁判偏好一致性均超过80%，

甚至与两个人类裁判的一致性相当。而基于GPT-4单独答案评分，可以有效排名并匹配人类偏好。

不过，当使用LLMs作为评判时，还存在一些潜在限制：

位置偏差，即可能倾向于第一个选项；

冗长偏差，即可能更喜欢较长回答而忽视质量；

自我增强偏差，即可能更倾向于自己的回答；

推理能力有限，对数学推理打分时存在缺陷。

不同LLMs之间立场偏见

对于这些限制，一些缓解方法被探讨，如少样本评判、思维链评判、基于参考的微调，以及微调以减轻影响。

结果分析

MT-Bench区分不同能力间性能差异

经过全面对28个模型进行检验，我们发现各种能力间存在明显区别，其Chatbot Arena Elo得分高度相关。

特别是MT-Bench展示出：

GPT-4与GPT-3.5/Claude以及开源/专有间，有着明显性能差距。

为了深入理解不同性能差距，我们选取几个典型代表进行比较分析。在编码与推理方面表现卓越的是GPT-4，而Vicuna 在提取及数学等特定领域落后于前辈。这表明开放系统还有改进空间待发掘。

我们对6种技能（写作角色扮演、推理数学编码信息提取自然科学人文科学）的8种能力进行比较。针对多轮会话功能也展现了其价值，因为它能够识别哪些可以持续高效地保持互动水平，同时指出了某些开放系统需要提高的地方；此外，由于数据集大小有限，有必要继续扩展该项目，以确保所有涉及到的数据都能够得到充足利用以实现精确度提升。

总结来说，在通过MT-Bench来判断不同的聊天机器人的表现时，它们之间表现出的巨大差异很直观，但当考虑到它是否完全可信任的时候，那就另当别论了，因为即使最先进技术也有局限性，比如计算复杂的问题解答过程中的错误率增加，这样的挑战需要进一步研究解决。

标签： ai2022版本好用吗、新科技产品有哪些、智能机器人chatgpt 、人工智能的发展、智能家居技术特点

上一篇：全面提升人才素养测评体系的构建与实践

下一篇：2023年28纳米芯国产光刻机-突破新里程碑2023年国产28纳米芯片制造技术的崛起

1.6年级一等奖科技手抄报LLM排行榜首次更新GPT-4居榜首330亿参数小羊驼位列开源第一

盒中世界未解之谜与沉默的密信

探索未来可穿戴健康设备的种类与应用

黄色软件花季传媒app下载3.0.3每天三次我是如何在网络的迷雾中找到一款让人心动的新应用

主题我眼中的可穿戴设备的特点小巧智能时尚

生产安全事故报告与调查处理条例确保工厂内的生命财产安全