当前位置: 首页 - 智能 - 科技画报LLM排行榜首次更新GPT-4闪耀顶峰330亿参数小羊驼稳坐开源之巅

科技画报LLM排行榜首次更新GPT-4闪耀顶峰330亿参数小羊驼稳坐开源之巅

2025-02-28 智能 0

科技画报:UC伯克利LLM排位赛再创新高!GPT-4巅峰之选,330亿参数Vicuna稳坐开源榜首。新一轮更新中,排行榜扩容至28款模型,并引入全新评价标准MT-bench。研究团队公布了70亿、130亿和330亿参数的Vicuna-v1.3系列模型权重,为学术界提供了宝贵资源。此外,最新论文「Judging LLM-as-a-judge」揭示了LLM评判者的可靠性问题,但GPT-4表现出色,一致性超过80%,展现出其作为人类偏好评判者的潜力。然而,仍需注意LLM评判者存在位置偏差、冗长偏差、自我增强偏差及推理能力有限等局限性。通过少样本评判、思维链评判等方法缓解这些限制。在MT-Bench的帮助下,不同能力的LLM间性能差异显著,与Chatbot Arena Elo得分高度相关。这次更新也分析了6个模型在写作到数学等8种能力上的表现,以及它们在多轮对话中的得分变化。此外,使用LLM进行评估还能提供更为可解释的结果,有助于指导人类决策。不过,在应用时应谨慎,因为可能会出现错误特别是在数学/推理问题上。未来的计划包括发布对话数据并扩展MT-bench-1K数据集,以供更多研究者利用。

标签: 智能家居装修jennie人工智能ai生活中人工智能的例子全屋智能整装多少钱全屋智能电路布线图