2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。
这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展。
正如名字所示,M3Exam 有三个特征:
Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等多个因素,挑选了 9 个国家对应的语言,并且所有问题均来自于对应国家的一些官方试题。
Multimodal 多模态:我们同时考虑纯文字以及带图片的问题,并且认真处理了所有图片以方便它们被处理。
Multilevel 多阶段:我们考虑三个重要教育阶段,即小升初、中升高中、高中毕业,并从对应阶段取得过试题,使得可以比较不同智力要求下,对比不同阶段下的表现差异。
我们的研究中,我们选择了一些开源和闭源的大型学习系统,以他们在这些新创建的问题上的性能为目标。结果显示,大部分参与者都有很差的心情,因为没有一个能够超过50% 的正确率。在与参数数量相似但不包括图像作为输入的情况下,与 Flan-T5 模型进行比较时,大型学习系统通常表现出色,但在这个新的任务上,它们基本上没有体现出任何优势。
进一步检查表明,由于目前使用的大量数据都是简单的事务性问题,因此可能需要更复杂和更困难的问题才能全面衡量每种类型学习系统之间真正存在哪些区别。此外,这也提出了一个关于为什么几乎所有这些非常先进的人工智能算法在基础水平的问题上仍然经常犯错的一个谜团。这是一个关键问题,因为如果AI技术不能解决最基本的问题,那么它就无法在实际世界中的许多应用中发挥作用,比如通过AI辅助教学去提高学生技能或理解教材内容。
总结来说,本文介绍了一项全新的评价工具M3Exam,它旨在提供一种可靠的手段来评价那些旨在处理大量不同的自然语音和图像信息的大型计算机程序。在当前情况下,这种方法揭示了一些令人惊讶的事情,如即使是在较低级别课程中,大型计算机程序似乎能达到最佳水平,而不是像人们预期那样会随着课程难度增加而出现显著下降。而另一方面,一旦该领域内某人掌握了足够数量单词,他们就应该能够轻易地解答小学级别考试中的问题。但奇怪的是,没有一款软件能做到这一点。这意味着尽管已经有很多软件被设计出来用于帮助人们学习新事物,但这并不代表它们真的有效或者真的能帮助人们理解他们正在尝试解决的话题。如果想让人工智能成为日常生活的一部分,就必须解决这些简单但至关重要的问题。