2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。
随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。
这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展,并已将论文和数据代码公开:
正如名字所示,M3Exam 有三个特征:
Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等因素挑选了 9 个国家对应 的语种,将所有问题均来自于对应国家官方试题中,以包括英语、汉语、意大利语、葡萄牙语、中南非荷兰话、高棉话以及泰米尔文等九种不同方言。
Multimodal 多模态:同时考虑纯文字与带图片的问题,并精心处理所有图片以便于它们能被适当地处理。
Multilevel 多阶段:我们从小升初到高中毕业三大教育阶段中获取相关考试题目,使得能够比较不同智力要求下各个阶段所展现出的差异性。
我们的实验结果显示,大部分参与者未能取得50%以上正确率,即使与参数量相近但没有使用图像输入Flan-T5相比,大型图像输入网络几乎未体现出优势。
进一步分析,我们发现可能原因在于目前普遍采用的简单VQA(视觉问答)任务往往仅涉及简单提问,而人类作业通常需要更深入理解图片细节,如数学竞赛中的数字识别。此外,我们注意到即使是在基础教育水平上,大型神经网络都难以胜任,这一发现引发了一些思考,即是否真的需要通过更复杂的问题去验证这些系统?
结论
本文介绍了新开发的一个全新的评价标准M3Exam,其目标是为那些面临跨文化和跨媒体挑战的大型神经网络提供一个公正和有效的人工智能应用场景。在当前的情况下,由于绝大部分参与者的性能不佳,这表明尽管某些系统已经在单一或少数几个主要方言上达到良好水平,但它们在真正全面情况下的表现仍然存在严重不足。此外,由于目前的大型图像输入网络似乎无法捕捉更详细信息,它们似乎只能识别最基本的事实。这篇文章还指出,对未来基于人工智能教学项目进行改进,我们应该更加关注为什么这些系统会犯错误这一问题,因为这可能比不断增加难度才能衡量差异性的方法更加有价值。
最后,本文期待该标准能够成为推动这个领域前行的一份强有力的工具,同时它也有望帮助开发人员提升他们作品,让每一种自然界中使用到的任何一种方言都能享受到同样的技术革新和潜力丰富应用场景。