当前位置：首页 - 智能 - 关于科技发展的名人名言闪耀LLM排行榜首次更新GPT-4雄风初现330亿参数巨兽登顶开源之星小羊驼不

关于科技发展的名人名言闪耀LLM排行榜首次更新GPT-4雄风初现330亿参数巨兽登顶开源之星小羊驼不

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新，GPT-4稳坐榜首，GPT-3.5紧随其后。Vicuna，代表开源模型，以330亿参数强势冲至第五。UC伯克利主导的「LLM排位赛」迎来首次重磅更新！这次不仅加入了更多模型（共28个），还增加了2个全新的评价标准，并发布了更新的Vicuna-v1.3系列模型。

与此同时，团队推出了增强版LLM排行榜。GPT-3.5、Claude-v1和Claude-instant-v1三者在MT-bench得分上竞争激烈，而开源模型如Vicuna-33B相比之下显得落后，但仍有例外，如谷歌的PaLM2。

全新评价机制：MT-bench

传统基准测试不足以评估LLM的人类偏好，因此团队发表了一项研究——揭示了LLM评判者的可靠性问题。结果显示，与专家组或众包组人类裁判一致性超过80%。

然而，当使用为评判者时，存在位置偏差、冗长偏差、自我增强偏差和推理能力有限等限制。为了缓解这些限制，探讨了少样本评判、思维链评判、基于参考的评判和微调评判方法。

结果分析

MT-Bench有效地区分不同能力间性能差异

在最新排名中，对28个模型进行全面评价显示，不同能力间存在明显区别，其Chatbot Arena Elo得分呈高度相关性。

特别是MT-Bench引入，对于性能差距给予鲜明展现。

为了更深入了解各LLM之间差距，选择几个有代表性的进行分析。

结果显示，与GPT-3.5/Claude相比,GPT-4在编码和推理方面表现出更高性能，而Vicuna-13B在提取、编码及数学类别中落后。

比较6个模型8种能力：写作角色扮演推理数学编码信息提取自然科学人文科学

多轮对话能力的评估

选定的开源模型第一轮第二轮表现下降，而专有模型保持一致性。

另外，更宽松或调整后的Open-LLaMA也存在明显性能差距。

考虑到使用时可能出现错误尤其是在数学/推理问题打分时，

总结而言，由于提供可解释性，它们能够指导人类做出更明智决策。

计划发布对话数据并扩展问题集建立丰富数据集—敬请期待！

标签：张雪峰最不建议上的专业、智能家居设计方案案例、人工智能包括哪些、为什么现在很少人戴手环、人工智能包含哪些领域

上一篇：鹤壁职业技术学院的未来之光在哪里

下一篇：机器视觉LED点光源我眼中的智能照明

相关推荐

推荐资讯

热门文章