2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。随着大模型的发展,以及近期各种开源大模型的推出,如何对这些模型进行充分并且准确的评估变得越来越重要。一个受欢迎的方法就是利用人类考题来检验模型,从而可以测试它们在知识和推理方面的能力。
例如,对于英文模型,MMLU 已经被广泛用来评估它们在多个学科上的表现。而对于中文社区来说,也出现了类似 C-Eval 以及 GAOKAO 这样的试题,以此来测试中文模型。
这样的测试基准对于促进模型的发展起着至关重要的作用,但对于多语言 / 多模态大型系统,它们仍然是空白领域。因此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言、多模态测试基准 M3Exam,以推动这一领域的发展,并将论文和数据代码公开。
正如名字所示,M3Exam 有三个特征:
Multilingual 多语言:我们综合考虑了不同国家之间的一些关键因素,如文化背景等,并选择了包括英语、中文、意大利语、葡萄牙语以及其他九种不同的国家对应语言的问题。这一切都来自于各自国家官方考试问题。
Multimodal 多模态:我们同时包含了纯文字问题以及带图片的问题,并且认真地处理了一切图片,这样便利地让所有参与者能够处理这些信息。
Multilevel 多阶段:我们的目标是从小升初、中升高到高中毕业教育阶段获取所有官方考试问题,这样就可以比较不同智力要求下的不同教育阶段下每种类型任务中不同学习者的表现差异。
接下来,我们选取了一系列开源和闭源的大型系统进行实验,看看它们是否能有效地跨越不同的母语环境。在这个过程中,我们发现绝大部分系统都表现得相当糟糕,即使没有任何一个达到50%以上正确率。大致上,大型系统似乎没有体现出与Flan-T5相似的优势,即使两者参数量相似(Flan-T5 并未使用图像作为输入)。
进一步分析,我们认为可能是因为当前存在的大型系统只能简单理解图片,而不能深入理解复杂情境的情况。此外,他们也无法像人一样理解数字细节或执行更复杂数学计算任务。举例来说,在数理化课程中,如果需要解释一张图中的数字,则这通常超出了他们目前可用的能力范围。
最令人惊讶的是,无论是在较低还是较高水平的问题上,大型系统似乎并没有显示出明显下降趋势。但即便如此,它们在“基础”层次的问题上却犯错非常频繁——至少根据人类标准而言。在中国,如果一个人能取得70%左右正确率,那么解决小学级别的问题应该是轻而易举的事情,但对大型系统来说,却不是这样。
这项观察引发了一些有趣的心灵探讨。如果想真正了解为什么某些任务会导致错误,那么不断更新难度以最大限度地测量性能提升并不总是一个好主意。在实际生活应用场景中,比如AI教育或者研究时,要想确定为什么有些基本技能还不足以帮助那些学习者通过简单但至关重要的小学级别考试,这一点更加值得探索和研究。
结论
本文介绍了一款新的评估工具M3Exam,其目标是在为评价具有各种功能的大型自然语言处理工具提供一种全面的标准。基于目前收集到的数据,我们已经发现尽管一些开放资源支持英文甚至汉语使用良好,不同母语环境中的绝大部分技术都表明其性能不佳。此外,由于它只捕捉到了图像的一个简单特征,而不能捕捉更精细或复杂细节,因此关于训练这些能够适应更多类型输入数据的大型机器智能工具还有很多工作要做。我希望未来通过这种类型新生成绩标准,将其带给所有人的日常生活,使其更加丰富和容易访问。