2025-02-23 智能 0
在达摩院的努力下,阿里巴巴达摩院多语言NLP团队推出了M3Exam,这是一个首个多语言多模态测试基准。它涵盖了12317道题目,旨在评估大型模型的知识和推理能力。随着近年来中国科技成果的蓬勃发展,大型模型已经成为研究人员关注的焦点。
为了更好地理解这些模型,我们需要一个标准化的测试方法。在过去,人类考题被广泛使用以检验模型,但对于跨语言和跨模态的大型模型来说,缺乏相应的评测标准。因此,阿里巴巴达摩院发布了M3Exam,以填补这一空白,并促进这种类型评测的发展。
M3Exam具有三项特色:Multilingual(多语言)、Multimodal(多模态)和Multilevel(多阶段)。这意味着它不仅包含来自不同国家官方试题的问题,还包括带有图片的问题,并且覆盖了三个教育阶段的小升初、初升高、高中毕业考试题目。
通过对各种开源和闭源大型模型进行测试,我们发现大部分模型表现都很差,只有少数能达到50%以上的准确率,即使是参数量相似的大型Flan-T5也未能显示出明显优势。这表明现有的数据可能过于简单,而人类考题则要求更复杂的心智理解。
这个发现提出了一个问题:是否应该不断增加难度以进一步挑战这些大型模型?或者我们应该更加关注它们在基础问题上的表现,因为这将影响到它们实际应用中的效用?
总结来说,M3Exam为评估与开发这些新兴技术提供了一种可靠的手段。虽然目前结果并不令人满意,但未来通过不断迭代和改进,这些工具有望为所有语言用户带来更多便利并拓展新的使用场景。