中央部委排名顺序GPT-4闪耀榜首330亿参数小羊驼开源领跑

2025-02-28 智能 0

编辑：好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新，GPT-4坚守榜首，330亿参数Vicuna紧随其后。最新排名中，不仅增加了更多模型，更引入了全新的评价标准。此外，团队发布了更新的Vicuna-v1.3系列模型，并公开权重。

增强版LLM排行榜

GPT-3.5、Claude-v1和Claude-instant-v1竞争激烈，但在MT-bench得分上表现出色。在人类偏好的评估方面，与专有模型相比，开源模型仍有差距。然而，有如谷歌PaLM2等例外情况，也显示出了开源模型的潜力。

全新评价机制：MT-bench

传统基准测试不足以评估LLM的人类偏好，因此团队提出了一项系统研究——揭示了可靠性问题。结果显示，强大的LLM评判者与专家组或众包组人类裁判一致性高达80%以上，可以作为可扩展、可解释的近似值。

不同LLM评判者的立场偏见

探讨如何缓解位置偏差、冗长偏差、自我增强偏差以及推理能力限制。结果分析表明，MT-Bench有效地区分不同能力的LLM性能差异。

比较6个模型8种能力：写作、角色扮演、推理、数学编码信息提取自然科学人文科学

多轮对话能力的评估

开源和专有模型在第一轮和第二轮对话中的性能显著不同，而基于LLaMA或更宽松模式之间也存在明显差距。

使用MLL进行评判的优势在于提供可解释性。

下一步计划包括发布对话数据并扩展问题集，以建立更丰富的地面真实数据集。

标签：智能选股、智能语音声控手机软件、张雪峰谈智能制造工程、中国智能科技有哪些、 ai教程