当前位置: 首页 - 智能 - 中国科技最新消息达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败

中国科技最新消息达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

机器之心专栏

机构:达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。

随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大 모델,其相应 的评测依然是一片空白。由此,我们阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,以推动此类评测 的发展,我们论文和数据代码已公开:

正如名字所示,M3Exam 有三个特征:

Multilingual 多语言:我们综合考虑了语言特点、资源高低、文化背景等因素,并挑选出了 9 个国家对应的一些主要使用语言,这包括英语、中文、意大利语、葡萄牙语以及其他一些国际上较为流行或有代表性的少数民族和地区性语种;所有问题均来自于对应国家或者地区官方考试试卷。

Multimodal 多模态:我们同时考虑到了纯文字以及带图片的问题,并且认真地处理了所有图片,使得这些信息能够方便地被计算机程序处理。

Multilevel 多阶段:我们考虑到了三个教育阶段,即小升初、中升高、高中毕业,以及从对应阶段正式考试取得的问题,这样就能比较不同智力要求下不同阶段时期学生面临的情况,以及他们所需解决的问题类型。

通过这个新的评价标准,我们选择了一些开源和闭源的大型人工智能系统,它们被用以评价它们在不同的任务方面所展现出的技能。在实验结果中,可以看出,大部分参与者都显示出了不佳的情形,他们甚至没有任何一位能够达到50%以上正确率。这表明,即使与拥有相似参数量但没有使用图像输入作为训练材料的大型 Flan-T5 模型相比,大部分具有额外功能(即包含图像)的新型AI系统并未体现出显著优势。

进一步分析后,我们发现可能存在的一个原因是,由于目前普遍用于验证AI性能的大量数据集中包含的是简单的问题,如VQA(视觉问答)中的提问往往只涉及到图片某一方面的小细节。而人类完成的人类考题则需要更深入地理解和分析图像内容,比如数学竞赛中的问题需要注意图像上的数字细节。此外,一些具体例子展示了解决过程中每个AI系统给出的答案:

令人惊讶的是,在从基础水平到更高难度层次之间,对于绝大部分参与者的表现并无明显下降趋势。一致呈现在所有参与者的回答中,是关于基础水平问题时他们最为优秀。这反映出一个颇为奇怪的事实——尽管根据中国普通人的生活经验,如果一个人能在高中期获得70%左右正确率,那么解小学级别难度的问题应该轻而易举,但实际上这些AI系统却无法做到这一点。

这种观察引发我们的思考:如果想要有效地应用这些人工智能技术,比如将它们用于教学目的,或许探讨为什么它们会犯错,而不是仅仅提升它们处理复杂任务能力才更加关键。如果要想让这项工作产生长远影响,就必须继续改进我们的工具,使其能够以更好的方式捕捉那些微妙但又至关重要的人类思维过程,从而提高人们生活质量,让更多人受益于现代科技成果。

总结来说,本篇文章介绍了一款全新的M3Exam 测试标准,它旨在为开发人员提供一种可靠的手段去衡量他们创建出来的人工智能项目是否真正适合各国用户,同时满足各国人民日常需求。在当前情况下,无论是在英语还是中文环境中,这些基于开放数据库训练过的人工智能算法已经开始展现出相当优异的情报。但当涉及到跨文化交流或实现国际合作的时候,不同国家间差距变得尤为突出,因此我们希望未来通过不断完善这一评价标准,将这些巨大的潜力释放出来,为世界范围内各族群体创造更加平等公平的地板线条,最终实现全球化时代下的社会整合与共享繁荣目标。

标签: 女生学人工智能专业就业好吗高科技产品介绍人工智能ai可以自学吗明阳智能ai人脸替换网站