2025-02-28 智能 0
编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新,GPT-4坚守榜首,330亿参数Vicuna紧随其后。最新排名中,不仅增加了更多模型,更引入了全新的评价标准。此外,团队发布了更新的Vicuna-v1.3系列模型,并公开权重。
增强版LLM排行榜
GPT-3.5、Claude-v1和Claude-instant-v1竞争激烈,但在MT-bench得分上表现出色。在人类偏好的评估方面,与专有模型相比,开源模型仍有差距。然而,有如谷歌PaLM2等例外情况,也显示出了开源模型的潜力。
全新评价机制:MT-bench
传统基准测试不足以评估LLM的人类偏好,因此团队提出了一项系统研究——揭示了可靠性问题。结果显示,强大的LLM评判者与专家组或众包组人类裁判一致性高达80%以上,可以作为可扩展、可解释的近似值。
不同LLM评判者的立场偏见
探讨如何缓解位置偏差、冗长偏差、自我增强偏差以及推理能力限制。结果分析表明,MT-Bench有效地区分不同能力的LLM性能差异。
比较6个模型8种能力:写作、角色扮演、推理、数学编码信息提取自然科学人文科学
多轮对话能力的评估
开源和专有模型在第一轮和第二轮对话中的性能显著不同,而基于LLaMA或更宽松模式之间也存在明显差距。
使用MLL进行评判的优势在于提供可解释性。
下一步计划包括发布对话数据并扩展问题集,以建立更丰富的地面真实数据集。