2025-02-23 智能 0
在机器之心专栏中,达摩院多语言NLP团队与阿里巴巴合作,共同推出了M3Exam,这是首个针对多语言和多模态的大型测试基准。该测试集包含12317道题目,涵盖了9种不同国家的官方试题。M3Exam不仅支持纯文字问题,还包括带有图片的问题,并且设计成能够评估模型在三个教育阶段(小升初、初升高、高中毕业)的表现。
为了验证这些大型模型的能力,我们进行了一系列实验,结果显示绝大部分模型都无法达到50%的正确率,即使是同参数量级的Flan-T5模型,也未能展现出显著优势。此外,我们发现当前多模态测试数据相对简单,而人类考题往往需要更复杂的理解能力,因此我们认为,对于提升模型性能,更重要的是使用更具挑战性的数据集来训练和测试它们。
我们的研究还揭示了一个有趣的事实,那就是尽管从低到高教育阶段,大部分模型表现没有显著下降,但却在中等水平的问题上表现最佳。这表明即便面对基础知识的问题,大型AI也存在难以预料的情况,使得它们在实际应用中的可靠性仍然是一个值得探讨的话题。
总结来说,我们通过创建M3Exam这样的标准,为评价这类大型AI提供了一个可靠的手段。虽然目前这些AI在单一语言环境下的表现尚可,但其跨语言和跨媒体处理能力仍需改进。而我们希望这种新的测试标准能够促进相关技术的发展,为全球用户提供更加智能化服务。