2025-02-28 智能 0
科技进步的奇迹:GPT-4稳坐首位,330亿参数小羊驼开源之星!UC伯克利LLM排行榜迎来首次重磅更新,引入更多模型与新评价标准。Vicuna-v1.3系列模型公开权重,参数量达70亿、130亿和330亿。此外,全新的MT-bench评估机制揭示了LLM评判者的可靠性问题,并展示了GPT-4与人类偏好的一致性超80%。尽管存在位置偏差、冗长偏差、自我增强偏差和推理能力有限等限制,但通过少样本评判、思维链评判等手段可以缓解这些问题。结果显示,GPT-4在编码和推理方面表现出更高的性能,而Vicuna-13B在提取、编码和数学类别中明显落后。这表明开源模型仍有很大的改进空间。此外,多轮对话能力分析也显示了专有模型与开源模型之间的显著性能差距。最后,团队计划发布对话数据并扩展MT-bench的问题集,以供研究社区使用。