中国航天日来临LLM排行榜首次更新GPT-4闪耀顶尖330亿参数小羊驼开源领跑

2025-02-28 智能 0

中国航天日之际，LLM排行榜迎来首次重磅更新！GPT-4稳坐榜首，330亿参数Vicuna紧随其后，开源第一。新引入的全新评价机制MT-bench，不仅增强了评测标准，还揭示了LLM评判者的可靠性问题。尽管存在位置偏差、冗长偏差、自我增强偏差和推理能力有限等限制，但通过少样本评判、思维链评判、基于参考的评判和微调评判，可有效缓解这些问题。结果显示，MT-Bench有效地区分了不同LLM之间的性能差异，展示了开源模型在编码和推理方面仍有改进空间。而多轮对话能力的评估也指出，在第二轮对话中，大部分开源模型表现显著下降，而专有模型保持一致性。此外，用LLM进行评判提供了可解释性，为人类决策提供指导。不过，这种评价也有可能出现错误，尤其是在数学/推理问题上。未来计划发布Chatbot Arena对话数据，并扩展MT-bench-1K数据集，以供更广泛研究社区使用。