2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。
随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。
这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展。
正如名字所示,M3Exam 有三个特征:
Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等因素,我们挑选了9个国家对应的大型数据集,这些数据集包括但不限于英文、中文、意大利语、葡萄牙语和其他少数民族语群体,以确保我们的考试能够覆盖全球不同地区和文化背景的人们。
Multimodal 多模态:除了纯文字问题,我们还包括了一系列带图片的问题。这使得我们能够更全面地评价一款AI系统,它是否能够理解文本内容,并能根据图片中的信息做出合适反应。
Multilevel 多阶段:我们的考试设计包含三部分,即小学、中学、高中水平,每一部分都有相应数量的问题,以便我们可以比较不同阶段学生所需具备的心智能力。
通过使用这些标准,我们选择了一些不同的开源和闭源AI系统进行实验,看看它们在处理这些问题时能达到什么程度。一旦结果出来,我们发现绝大部分AI系统都未能达到50%以上正确率,即使与参数量相同或接近但没有使用图像作为输入的一些Flan-T5系统相比,大型AI系统似乎并没有额外优势。
进一步分析显示,由于目前普遍使用的大型数据集往往只涉及简单的问题,如VQA(视觉问答)中常见的是仅针对图像某一个方面提出问题,而实际生活中的任务可能要求更深层次理解,比如数学或科学考试需要精细观察图像中的数字细节。在这种情况下,不同教育水平下的难度似乎并不影响到这些大型AI系统,但它们在所有级别上都无法有效地解决基础问题这一事实引发了人们对这个现象更多思考。此前,如果一个人在中国高考获得70%左右成绩,他们应该轻易就能解答小学水平的问题,但奇怪的是,对于几乎所有这类巨大的计算机程序来说,这却是一个挑战。
从这一研究中得出的结论是,不断增加难度以检测新技术并不一定会揭示它真正潜力。如果希望将人工智能用于实际应用场景,如教育领域,就应该寻找为什么这样强大的工具会犯错误的一个答案而不是不断提高难度标准。
总结
这篇文章介绍了我们新创建的一个名为M3Exam 的工具,它旨在为开发者提供一种全新的方法去评价他们正在开发的人工智能产品。这项工作展示出尽管一些人工智能已经成功完成复杂任务,在英语甚至汉语上取得令人印象深刻的地步,但是在处理来自世界各地不同文化和背景的情况时,大部分人工智能仍然存在严重不足。而那些结合文本与图像功能的人工智能则显著落后,因为它们似乎只能识别最基本的情报,而不能捕捉到更多微妙细节。我期待M3Exam 在未来帮助改进相关技术,使得即便是最贫穷国家的人民也能享受这些先进技术带来的好处,同时扩展人工智能应用范围至无国界区域。