2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。
随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。
这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,我作为阿里巴巴达摩院多语言 NLP 团队的一员,我们发布了首个多语言多模态测试基准 M3Exam,以推动此类评测的发展,并将论文和数据代码公开:
正如名字所示,M3Exam 有三个特征:
Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等因素,将挑选了 9 个国家对应的大量官方试题,这些问题覆盖英文、中文、意大利语、葡萄牙语、越南语、南非荷兰语、斯瓦希里语、泰语和爪哇语。
Multimodal 多模态:我们同时考虑纯文字以及带图片的问题,并且认真处理所有图片以便于各类设备上都能正常处理这些内容。
Multilevel 多阶段:我们从小升初、中升高、高中毕业三大教育阶段抽取题目,使得可以比较不同智力要求下不同阶段对应不同的智能水平。
我选择了许多开源与闭源的大型模式去进行它们在各自母语中的性能检测结果如下:
图表显示,大部分模式表现都很差,只有极少数能够达到50%以上正确率,即使与参数相似度较高但没有使用图片输入(Flan-T5)相比,大部分为单一视觉场景询问简单的问题,但即使如此,不同级别的问题中每个人工考卷中更复杂理解图片细节也是让人感到惊讶的事情之一。
具体的一个例子给出了问题以及每个模式输出:
看起来奇怪的是,从较低到更高教育水平,没有显著下降趋势。但几乎所有类型都会在中等难度问题上展现最好的效果。这似乎是一个谜,因为尽管中国学生在高中考试获得70%左右成绩解决小学考试应该轻松无压力,但这并不适用于任何类型。
这个观察引发了一种思考,如果想要通过更加困难数据集去训练或验证我们的系统是否有效地评价它们之间差异可能会取得最大效益。在实际生活应用,如AI教育研究为什么这样做会导致基础错误可能是探索价值最高的事项。
结论
本文介绍了一款新创建出来用于评价各种大小型模式——M3Exam,它旨在为基于翻译任务设计以保证他们能够跨过不同的自然言行话环境提供一种可靠方式。我看到新的实验结果说明虽然某些类型已经能用英语甚至汉字产生不错成绩,而其他仍然存在大量不足。大型视觉场景捕捉功能则还无法捕捉精确细节,我们希望未来通过M3Exam帮助迭代相关系统,使得更多用户和更丰富应用场合受益于这种技术进步。