2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。
随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。
这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展,其论文和数据代码已公开:
正如名字所示,M3Exam 有三个特征:
Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等因素,并选取了 9 个国家对应 的7种不同类型的问题。
Multimodal 多模态:我们同时考虑纯文字以及带图片的问题,并处理所有图片以便于它们被分析。
Multilevel 多阶段:我们从小升初到高中毕业教育阶段获取问题,使得可以比较不同智力要求下,不同阶段下的学习效果。
为了验证这个标准,我们选择了不同的开源和闭源的大型机器学习系统,它们在这项任务上表现如下:
图中显示,大部分系统都未能获得超过50%正确率。这表明,即使参数量相同,如 Flan-T5 模型,这些基于视觉信息的大型系统也没有提供显著优势。此外,我们注意到这些简单问题往往需要复杂理解,比如数理难题中的数字细节。在给定例子中,每个系统输出都展示了一组复杂问题及其答案预测结果。
令人惊讶的是,在基础教育水平提升时,没有发现任何线性降低趋势;然而,对于基本层次的问题来说,大部分系统性能最好。这让人感到困惑,因为尽管中国学生通常能够轻松完成小学级别考试,但这些大型计算机程序似乎无法做出相同的事情。
这种观察为我们揭示了解决更难数据集并不一定能最大限度地揭示每一台计算机之间差异。如果要将这些技术应用于实际生活(比如AI辅助教学),研究为什么它们会犯错误可能更加有价值。
结论
本文介绍了我们的新创建标准M3Exam,其目标是为评价跨语系、大规模网络的人工智能提供一个可靠工具。通过当前实验结果,我们看到许多成熟的大型网络已经能够达到很好的效果,但是在跨语系环境中绝大部分网络仍旧存在不足。而那些结合视觉元素的大型网络则更不灵活,只能捕捉简单图像特征,而不能捕捉更精细化细节。希望未来通过使用这个新的评价工具,可以帮助相关项目进行迭代,以实现更多用户和场景使用需求满足。