当前位置: 首页 - 智能 - 我是科技之光带你见证LLM排行榜的辉煌变迁GPT-4雄居榜首其330亿参数如同小羊驼般悠然自得而开源

我是科技之光带你见证LLM排行榜的辉煌变迁GPT-4雄居榜首其330亿参数如同小羊驼般悠然自得而开源

2025-02-28 智能 0

我是科技之光,带你探索LLM排行榜的新篇章!GPT-4巍然屹立于榜首,330亿参数的Vicuna紧随其后,以开源之姿闪耀。就在此刻,UC伯克利主导的「LLM排位赛」迎来了重大更新!

这次变革不仅增添了更多模型(已达28个),而且引入了2个全新的评价标准。

同时,团队发布了更新Vicuna-v1.3系列模型,其参数量为70亿、130亿和330亿,并开放权重。

强化版LLM排行榜

GPT-3.5、Claude-v1和Claude-instant-v1竞逐冠军,不分伯仲,在MT-bench得分上展现出激烈对决。

与这些专有模型相比,开源阵营虽领先,但仍存在差距,即使是顶尖开源Vicuna-33B也不例外。

然而,一些如谷歌PaLM2的专有模型则显露出落后的身影。

全新评价机制:MT-bench

尽管现有的基准测试如MMLU、HellaSwag和HumanEval等已经广泛应用,

但在评估人类偏好时,它们仍存有不足,如封闭式问题测试提供简洁输出作为评价。

新研究揭示了LLM评判者的可靠性问题:

结果显示,与人类裁判一致性超越80%,

即能与两名人类评审的一致性媲美,而单个答案评分也能有效排名并匹配人类偏好。

然而,当LLM作为评判者时,也存在潜在限制:

位置偏差、中长回答偏好自我增强及推理能力有限。

不同LLM评判者的立场偏见被讨论解决方案:

少样本评判、思维链评断、基于参考的微调以缓解这些限制。

结果分析

MT-Bench有效地区分性能差异

28个模型全面被测,

显示区别明显,与Chatbot Arena Elo相关性高。

特别是MT-Bench引入表明GPT-4与GPT-3.5/Claude,以及开源与专有之间,有着清晰性能差距。

代表性的几个LLM表现分析显示:

相较于GPT-3.5/Claude,GPT-4编码推理更胜一筹;

Vicuna-13B在提取编码数学方面稍显不足,这证明开源还需改进空间。

多轮对话能力进行比较

选定6个模型8种能力进行分析,

发现第一、二轮间性能下降较大;而强势专有保持稳定;

基于LLaMA或宽松规则间也有显著差距:

最后,我是科技之光,将继续关注这一领域,为您提供最精彩内容。

标签: 人工智能属于计算机类吗智能家居控制系统加盟代理人工智能的含义智能科技产品智慧家居全屋智能系统