2025-02-28 智能 0
我是科技之光,带你探索LLM排行榜的新篇章!GPT-4巍然屹立于榜首,330亿参数的Vicuna紧随其后,以开源之姿闪耀。就在此刻,UC伯克利主导的「LLM排位赛」迎来了重大更新!
这次变革不仅增添了更多模型(已达28个),而且引入了2个全新的评价标准。
同时,团队发布了更新Vicuna-v1.3系列模型,其参数量为70亿、130亿和330亿,并开放权重。
强化版LLM排行榜
GPT-3.5、Claude-v1和Claude-instant-v1竞逐冠军,不分伯仲,在MT-bench得分上展现出激烈对决。
与这些专有模型相比,开源阵营虽领先,但仍存在差距,即使是顶尖开源Vicuna-33B也不例外。
然而,一些如谷歌PaLM2的专有模型则显露出落后的身影。
全新评价机制:MT-bench
尽管现有的基准测试如MMLU、HellaSwag和HumanEval等已经广泛应用,
但在评估人类偏好时,它们仍存有不足,如封闭式问题测试提供简洁输出作为评价。
新研究揭示了LLM评判者的可靠性问题:
结果显示,与人类裁判一致性超越80%,
即能与两名人类评审的一致性媲美,而单个答案评分也能有效排名并匹配人类偏好。
然而,当LLM作为评判者时,也存在潜在限制:
位置偏差、中长回答偏好自我增强及推理能力有限。
不同LLM评判者的立场偏见被讨论解决方案:
少样本评判、思维链评断、基于参考的微调以缓解这些限制。
结果分析
MT-Bench有效地区分性能差异
28个模型全面被测,
显示区别明显,与Chatbot Arena Elo相关性高。
特别是MT-Bench引入表明GPT-4与GPT-3.5/Claude,以及开源与专有之间,有着清晰性能差距。
代表性的几个LLM表现分析显示:
相较于GPT-3.5/Claude,GPT-4编码推理更胜一筹;
Vicuna-13B在提取编码数学方面稍显不足,这证明开源还需改进空间。
多轮对话能力进行比较
选定6个模型8种能力进行分析,
发现第一、二轮间性能下降较大;而强势专有保持稳定;
基于LLaMA或宽松规则间也有显著差距:
最后,我是科技之光,将继续关注这一领域,为您提供最精彩内容。
上一篇:智慧工厂究竟是如何运作的