中国科技新星GPT-4勉强通过其他模型相继落败在达摩院测试大模型基准

2025-02-23 智能 0

在达摩院的努力下，阿里巴巴达摩院多语言NLP团队推出了M3Exam，这是一个首个多语言多模态测试基准。它涵盖了12317道题目，旨在评估大型模型的知识和推理能力。随着近年来中国科技成果的蓬勃发展，大型模型已经成为研究人员关注的焦点。

为了更好地理解这些模型，我们需要一个标准化的测试方法。在过去，人类考题被广泛使用以检验模型，但对于跨语言和跨模态的大型模型来说，缺乏相应的评测标准。因此，阿里巴巴达摩院发布了M3Exam，以填补这一空白，并促进这种类型评测的发展。

M3Exam具有三项特色：Multilingual（多语言）、Multimodal（多模态）和Multilevel（多阶段）。这意味着它不仅包含来自不同国家官方试题的问题，还包括带有图片的问题，并且覆盖了三个教育阶段的小升初、初升高、高中毕业考试题目。

通过对各种开源和闭源大型模型进行测试，我们发现大部分模型表现都很差，只有少数能达到50%以上的准确率，即使是参数量相似的大型Flan-T5也未能显示出明显优势。这表明现有的数据可能过于简单，而人类考题则要求更复杂的心智理解。

这个发现提出了一个问题：是否应该不断增加难度以进一步挑战这些大型模型？或者我们应该更加关注它们在基础问题上的表现，因为这将影响到它们实际应用中的效用？

总结来说，M3Exam为评估与开发这些新兴技术提供了一种可靠的手段。虽然目前结果并不令人满意，但未来通过不断迭代和改进，这些工具有望为所有语言用户带来更多便利并拓展新的使用场景。

标签：智能化科技是什么意思、智能制造工程后悔死了、天元智能股吧、巨轮智能股吧、智能时代