当前位置: 首页 - 智能 - 1.6年级一等奖科技手抄报LLM排行榜首次更新GPT-4居榜首330亿参数小羊驼位列开源第一

1.6年级一等奖科技手抄报LLM排行榜首次更新GPT-4居榜首330亿参数小羊驼位列开源第一

2025-02-28 智能 0

编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4坚守榜首,GPT-3.5紧随其后,团队自家新发布的330亿参数Vicuna则勇夺开源第一。就在刚刚,UC伯克利主导的「LLM排位赛」迎来首次重磅变革!

这回,团队不仅在排行榜中引入了更多模型(目前已达28个),还增添了2个全新的评价标准。

同时,团队也推出了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,并公开了权重。

强化版LLM排行榜

显而易见的是,GPT-3.5、Claude-v1和Claude-instant-v1这三个模型间竞争激烈,不仅在MT-bench得分上并驾齐驱,而且在Elo和MMLU得分上有所交替。

与这些专有模型相比,开源模型虽佳,却仍显劣势,即便是作为开源领军的Vicuna-33B也是如此。

然而,也有一例外情况,比如谷歌PaLM2,它未能超越众多开源模式。

全新评价机制:MT-bench

虽然现在已经有许多评估大语言模型性能的基准测试,如MMLU、HellaSwag和HumanEval等,

但它们评估人类偏好的不足之处依然明显。

例如,这些传统基准测试通常是在封闭式问题(如多项选择题)上对LLM进行测试,并提供简洁输出作为评价标准。此外,

论文「Judging LLM-as-a-judge」中还揭示了使用强大的LLM评判者可靠性问题。结果显示,与专家组或众包组的人类裁判偏好一致性均超过80%,

甚至与两个人类裁判的一致性相当。而基于GPT-4单独答案评分,可以有效排名并匹配人类偏好。

不过,当使用LLMs作为评判时,还存在一些潜在限制:

位置偏差,即可能倾向于第一个选项;

冗长偏差,即可能更喜欢较长回答而忽视质量;

自我增强偏差,即可能更倾向于自己的回答;

推理能力有限,对数学推理打分时存在缺陷。

不同LLMs之间立场偏见

对于这些限制,一些缓解方法被探讨,如少样本评判、思维链评判、基于参考的微调,以及微调以减轻影响。

结果分析

MT-Bench区分不同能力间性能差异

经过全面对28个模型进行检验,我们发现各种能力间存在明显区别,其Chatbot Arena Elo得分高度相关。

特别是MT-Bench展示出:

GPT-4与GPT-3.5/Claude以及开源/专有间,有着明显性能差距。

为了深入理解不同性能差距,我们选取几个典型代表进行比较分析。在编码与推理方面表现卓越的是GPT-4,而Vicuna 在提取及数学等特定领域落后于前辈。这表明开放系统还有改进空间待发掘。

我们对6种技能(写作角色扮演、推理数学编码信息提取自然科学人文科学)的8种能力进行比较。针对多轮会话功能也展现了其价值,因为它能够识别哪些可以持续高效地保持互动水平,同时指出了某些开放系统需要提高的地方;此外,由于数据集大小有限,有必要继续扩展该项目,以确保所有涉及到的数据都能够得到充足利用以实现精确度提升。

总结来说,在通过MT-Bench来判断不同的聊天机器人的表现时,它们之间表现出的巨大差异很直观,但当考虑到它是否完全可信任的时候,那就另当别论了,因为即使最先进技术也有局限性,比如计算复杂的问题解答过程中的错误率增加,这样的挑战需要进一步研究解决。

标签: ai2022版本好用吗新科技产品有哪些智能机器人chatgpt人工智能的发展智能家居技术特点