当前位置: 首页 - 智能 - 达摩院发布航空航天大模型测试基准GPT-4勉强及格其他模型悉数落败

达摩院发布航空航天大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

机器之心专栏

机构:达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。

随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展。

正如名字所示,M3Exam 有三个特征:

Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等因素,我们挑选了9个国家对应的一些主要语种,比如英语、汉语、意大利语和葡萄牙语,还有南非荷兰语、斯瓦希里语和泰米尔语,以及印度尼西亚爪哇语,我们从这些国家获取的问题,并确保所有问题都来自于官方考试。

Multimodal 多模态:我们的设计同时包括文字问题和带图片的问题,并处理好所有图片以便给予计算机程序处理机会。

Multilevel 多阶段:我们选择小学生升初中、高中毕业以及高中升大学这三项教育阶段作为重点,因为它们分别代表不同水平的人智力要求,所以能比较清楚地看出不同的学习阶段下各自性能差异。

我们通过这个平台选取了一些开源和闭源的大型计算机系统(即“AI”)去进行实验,看看它们是否能够完成跨文化交流任务,其结果如下:

从图表中可以看到,大部分这些AI系统都没有很好的表现,有时候甚至不能达到50%正确率。这就意味着,即使与参数量相当但没有使用图片输入数据的情形(Flan-T5)相比,这些包含图片输入数据的大型计算机系统似乎并未展现出任何优势。

进一步分析,我们发现可能原因在于目前常用的训练数据太简单了,比如问答游戏通常只会询问关于某张照片的一个细节。而真正人类作业则需要更深入理解,如数学竞赛中的数字细节识别。在以下例子中展示了一道具体问题及其每台计算机系统提供答案:

观察到的是,不论是在较低还是较高教育水平下的难易程度上,这些AI们都没有显著下降,而是在人们普遍认为应该容易解决的问题上显示最强劲。这让人惊讶的是,对于人类来说,如果他们能在中国高考中得到70%左右成绩,那么解一些小学课本就不再困难,但这些AI却无法做到这一点。

这个发现提醒我们,无论何时,只要将更多复杂性加入到实验室环境或真实世界应用中去并不一定能最大限度地揭示不同系统间性能差距。如果想使用这些智能工具帮助实际生活,比如通过人工智能辅助教学,就应该探究为什么它犯错而不是仅仅努力提高它正确率。

总结

这篇文章介绍了新创造出来用于评价那些支持许多不同的自然言辞格式以及几种类型信息格式的大型计算设备——M3Exam,它旨在为评价这样的设备提供一种可靠标准。根据目前得出的结果,可以看到虽然很多技术已经能够取得令人满意的地步,在英语或者其他高度发达国家地区甚至汉文上。但当涉及到跨国界交流时,大部分设备仍旧存在严重不足。此外,使得图像内容更加丰富详尽,同时又捕捉不到精细微观层面的内容,这也是当前开发者面临的一个重大挑战。不过,我希望未来这种新的评价方法将为提升相关技术水平,为全球范围内更广泛有效应用带来积极影响。

标签: 智能机器人技术人工智能医疗智能电视应用软件下载待机长的智能手机推荐生活中人工智能的例子