当前位置: 首页 - 智能 - 中央部委排名顺序GPT-4闪耀榜首330亿参数小羊驼开源领跑

中央部委排名顺序GPT-4闪耀榜首330亿参数小羊驼开源领跑

2025-02-28 智能 0

编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新,GPT-4坚守榜首,330亿参数Vicuna紧随其后。最新排名中,不仅增加了更多模型,更引入了全新的评价标准。此外,团队发布了更新的Vicuna-v1.3系列模型,并公开权重。

增强版LLM排行榜

GPT-3.5、Claude-v1和Claude-instant-v1竞争激烈,但在MT-bench得分上表现出色。在人类偏好的评估方面,与专有模型相比,开源模型仍有差距。然而,有如谷歌PaLM2等例外情况,也显示出了开源模型的潜力。

全新评价机制:MT-bench

传统基准测试不足以评估LLM的人类偏好,因此团队提出了一项系统研究——揭示了可靠性问题。结果显示,强大的LLM评判者与专家组或众包组人类裁判一致性高达80%以上,可以作为可扩展、可解释的近似值。

不同LLM评判者的立场偏见

探讨如何缓解位置偏差、冗长偏差、自我增强偏差以及推理能力限制。结果分析表明,MT-Bench有效地区分不同能力的LLM性能差异。

比较6个模型8种能力:写作、角色扮演、推理、数学编码信息提取自然科学人文科学

多轮对话能力的评估

开源和专有模型在第一轮和第二轮对话中的性能显著不同,而基于LLaMA或更宽松模式之间也存在明显差距。

使用MLL进行评判的优势在于提供可解释性。

下一步计划包括发布对话数据并扩展问题集,以建立更丰富的地面真实数据集。

标签: 智能选股智能语音声控手机软件张雪峰谈智能制造工程中国智能科技有哪些ai教程