我是科技之光带你见证LLM排行榜的辉煌变迁GPT-4雄居榜首其330亿参数如同小羊驼般悠然自得而开源

2025-02-28 智能 0

我是科技之光，带你探索LLM排行榜的新篇章！GPT-4巍然屹立于榜首，330亿参数的Vicuna紧随其后，以开源之姿闪耀。就在此刻，UC伯克利主导的「LLM排位赛」迎来了重大更新！

这次变革不仅增添了更多模型（已达28个），而且引入了2个全新的评价标准。

同时，团队发布了更新Vicuna-v1.3系列模型，其参数量为70亿、130亿和330亿，并开放权重。

强化版LLM排行榜

GPT-3.5、Claude-v1和Claude-instant-v1竞逐冠军，不分伯仲，在MT-bench得分上展现出激烈对决。

与这些专有模型相比，开源阵营虽领先，但仍存在差距，即使是顶尖开源Vicuna-33B也不例外。

然而，一些如谷歌PaLM2的专有模型则显露出落后的身影。

全新评价机制：MT-bench

尽管现有的基准测试如MMLU、HellaSwag和HumanEval等已经广泛应用，

但在评估人类偏好时，它们仍存有不足，如封闭式问题测试提供简洁输出作为评价。

新研究揭示了LLM评判者的可靠性问题：

结果显示，与人类裁判一致性超越80%，

即能与两名人类评审的一致性媲美，而单个答案评分也能有效排名并匹配人类偏好。

然而，当LLM作为评判者时，也存在潜在限制：

位置偏差、中长回答偏好自我增强及推理能力有限。

不同LLM评判者的立场偏见被讨论解决方案：

少样本评判、思维链评断、基于参考的微调以缓解这些限制。

结果分析

MT-Bench有效地区分性能差异

28个模型全面被测，

显示区别明显，与Chatbot Arena Elo相关性高。

特别是MT-Bench引入表明GPT-4与GPT-3.5/Claude，以及开源与专有之间，有着清晰性能差距。

代表性的几个LLM表现分析显示：

相较于GPT-3.5/Claude，GPT-4编码推理更胜一筹；

Vicuna-13B在提取编码数学方面稍显不足，这证明开源还需改进空间。

多轮对话能力进行比较

选定6个模型8种能力进行分析，

发现第一、二轮间性能下降较大；而强势专有保持稳定；

基于LLaMA或宽松规则间也有显著差距：

最后，我是科技之光，将继续关注这一领域，为您提供最精彩内容。

标签：人工智能属于计算机类吗、智能家居控制系统加盟代理、人工智能的含义、智能科技产品、智慧家居全屋智能系统