2025-02-23 智能 0
在达摩院多语言NLP团队的努力下,阿里巴巴推出了M3Exam,一个首个多语言多模态测试基准。这个基准系统涵盖了12317道题目,并且包含了从小升初到高中毕业的三个教育阶段,以确保模型能够适应不同智力要求。然而,尽管大型模型如GPT-4勉强及格,但其他模型均未能达到50%的正确率。
这种测试基准对于促进模型发展至关重要,它填补了对多语言和多模态大型机器学习模型进行评估的一片空白。此外,该基准还包括图片处理功能,使得它能够更全面地评估模型的知识和推理能力。
通过使用官方试题来构建的问题库,这些问题不仅是英文、中文,还包括意大利语、葡萄牙语、越南语等九种不同的语言。这些问题都来自于对应国家的官方考试,从而确保它们具有代表性和难度。
在测试中,大部分模型表现出色,但是当涉及到带有图片的问题时,大部分模型表现就很糟糕。这表明现有的数据可能过于简单,而人类考题则需要更复杂的理解能力,比如识别图中的数字细节。
此次研究为我们揭示了一点,即使用更困难的数据去测试模型并不能最大限度地衡量它们之间的差异。在实际生活中,如AI教育领域,如果想要可靠地使用这些模式,我们应该更多地研究为什么它们会在基础问题上犯错,而不是只是增加难度以提高分数。