2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。
随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。
这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,我作为阿里巴巴达摩院多语言 NLP 团队的一员,我们发布了首个多语言多模态测试基准 M3Exam,以推动此类评测的发展,并将论文和数据代码公开:
正如名字所示,M3Exam 有三个特征:
Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等因素,将选择了 9 个国家对应的事先翻译成我的母语,然后再选取这9国官方试题中的一部分问题,这样做保证了所有问题均来自于对应国家或地区的人类考题。
Multimodal 多模态:我们同时考虑纯文字以及带图片的问题,并且认真处理所有图片以方便我个人进行处理,同时也让我的同事能够理解这些图像内容,因为他们不擅长阅读外文图注释。
Multilevel 多阶段:我从小升初、初升高、高中毕业三個階段對應官方考试取得題目,使得可以比较不同智力要求下不同阶段对应的问题,对比不同阶段下各自的问题能让我更好地理解每一层次教育体制中的差异性。
我们选取了许多开源和闭源的大型人工智能系统(AI)如 GPT-4 来检测它们在不同的非英语非汉语语境下的表现,其中包括意大利语、葡萄牙语、泰语等,可以看到绝大部分AI系统都无法达到50%以上正确率,只有GPT-4勉强通过,但其他任何一种常见的大型AI系统都没有成功完成这个任务。
进一步检查发现,大部分问题涉及到复杂分析,如数理逻辑或自然科学,而不是简单识别或回答。这表明,即使最先进的人工智能系统,在面临实际挑战时仍然存在严重不足。在中国,如果一个人能在高中水平考试上得到70%左右正确率,那么解决小学级别的问题应该是轻而易举的事情,但却难以实现这一目标。
这个观察给我们带来的启发是,不断使用更加困难数据去测试这些AI并不一定会最大限度地衡量出它们之间真正差异。如果想要可靠地在实际生活中使用这些人工智能,比如用于教育辅助或者医疗诊断,我们需要深入探究为什么这样做会导致错误发生,这可能为未来的研究提供新的线索。
结论
本篇文章介绍了一项新创立的人类考题标准M3Exam,它旨在为评价那些能够理解和解答来自世界各国学校课程中的任何类型问题的大型人工智能提供一个统一标准。我希望通过这种方式,有助于提升全球范围内使用的人工智能技术质量,为人们提供更全面、高效且精确服务。此外,该项目还展示了解决当前面临挑战——即使最先进的人工智能也不能完全掌握某些领域信息—也是未来工作的一个关键方面。