当前位置: 首页 - 智能 - 视频黑科技app上演算法大赛GPT-4闪耀榜首330亿参数小羊驼稳坐开源之冠

视频黑科技app上演算法大赛GPT-4闪耀榜首330亿参数小羊驼稳坐开源之冠

2025-02-28 智能 0

编辑:好困 Aeneas【新智元导读】备受关注的UC伯克利LLM排位赛再次更新!GPT-4依旧稳坐榜首,GPT-3.5紧随其后。其中,团队自家发布的330亿参数Vicuna则在开源模型中名列前茅。这场「排位赛」不仅增加了更多模型(已达28个),还引入了全新的评价标准。此外,团队也推出了更新至Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,并公开了权重。

与此同时,这次更新还加入了一种全新的评价机制——MT-bench。通过这种机制,不同能力的LLM之间性能差异得到了更精确的区分。结果显示,与GPT-4相比,GPT-3.5/Claude在编码和推理方面表现出色,而Vicuna-13B在提取、编码和数学等特定类别中显著落后。

此外,在多轮对话能力评估上,也有明显的差距出现。强大的专有模型如GPT-4能够保持一致性,而开源模型如Vicuna-7B和WizardLM-13B在第一轮和第二轮之间性能下降。而基于LLaMA的模型与宽松调整后的Open-LLaMA之间也有明显性能差距。

值得注意的是,即使使用LLM进行评判,它们也存在一些潜在限制,如位置偏差、冗长偏差、自我增强偏差以及推理能力有限。在这方面,团队提出了一些缓解措施,如少样本评判、思维链评判、基于参考的评判以及微调评判。

总之,这次更新展现了MT-Bench有效地区分不同聊天机器人的能力,但仍需谨慎使用,因为它可能会出错特别是在数学/推理问题打分时。此外,团队计划发布Chatbot Arena对话数据,以及扩展的问题集并建立更丰富的MT-Bench数据集,以供研究社区使用。

标签: 智能遥控华为自带下载十大智能开关排名什么是智能制造技术?智能制造专业哪个学校好ai人脸替换网站