2025-02-28 智能 0
关于科技强国的名言名句中,LLM排行榜更新如同科技进步的脚步,一往无前!GPT-4稳坐榜首,GPT-3.5紧随其后,而330亿参数的小羊驼Vicuna则在开源领域占据了领先位置。UC伯克利主导的「LLM排位赛」迎来首次重磅更新,不仅增加了更多模型,也加入了全新的评价标准。此外,还发布了新一代Vicuna-v1.3系列模型,并公开权重。与此同时,全新的MT-bench评估机制也被引入,以更好地评估大语言模型的人类偏好。
MT-bench有效地区分不同能力的LLM之间的性能差距,在编码和推理方面,GPT-4表现出色,而在提取、编码和数学等特定类别中,小羊驼Vicuna-13B略显不足。这表明开源模型仍有很大的改进空间。多轮对话能力的评估显示,强大的专有模型保持了一致性,而开源模型在第一轮和第二轮之间性能下降。此外,基于可解释性角度考量,用LLM进行评判提供了详细全面、逻辑清晰的反馈,为人类决策提供指导。
总之,通过MT-Bench,可以有效地区分不同的聊天机器人,但使用时仍需谨慎。在未来的工作中,将继续扩展问题集并建立更丰富的数据集,以供研究社区广泛使用。