当前位置: 首页 - 智能 - 中国科学技术协会发布大模型测试基准GPT-4勉强及格其他模型悉数落败

中国科学技术协会发布大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

机器之心专栏

机构:达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。

随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。

这样的测试基准对于促进模式(model)的发展起着至关重要的作用,然而对于多语言 / 多模态大模式(big models),相应的评测依然是一片空白。由此,我作为阿里巴巴达摩院多语言 NLP 团队的一员,我们发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展,我们论文和数据代码已公开:

正如名字所示,M3Exam 有三个特征:

Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等因素,并挑选了 9 个国家对应的一些语言,比如英文、中文、意大利语等,这些问题均来自于对应国家官方试题。

Multimodal 多模态:我们同时考虑纯文字以及带图片的问题,并且认真处理所有图片以方便它们进行处理。

Multilevel 多阶段:我们考虑三个教育阶段的小升初、高升高、中途毕业,并从对应阶段官方考试取得这些题目,使得可以比较不同智力要求下各自表现差异。

我选择了很多开源和闭源的大模式去测试它们在每种不同的情境下的表现结果如下:

可以看到,大部分模式都很糟糕,即使没有一个能超过50% 的正确率。大致上与跟我有相似参数量但不包括图像输入Flan-T5 模型相比,没有体现出优势。

进一步检查发现可能是因为现在用于训练这些数据非常简单,如VQA往往只询问图片某一方面的问题,而人类考卷则涉及到更复杂地理解问题,如数理类考试中需要注意数字细节。在下面给出的具体问题以及每个模式输出中显示出来:

看起来令人惊讶的是,从较低教育阶段到更高层次,对话并不显著下降。这让人困惑的是几乎所有类型都在中等水平的问题上表演最佳。而人类来说,如果能在中国高中毕业考试得到70%左右成绩解决小学级别的问题应该轻而易举,但似乎不是那么容易实现。

这个观察提醒我们,不断使用更加困难数据去检测我们的性能不一定会最大限度地衡量我们的差异。如果想可靠地将我们的应用放入实际生活中,比如AI教程或研究为什么会犯错可能更加有价值。

总结

这篇文章介绍了一套新的标准M3Exam,以目标为提供一个可靠评价框架,为那些能够处理许多不同环境中的信息的大型编码系统做准备。从目前通过的一个系列实验结果显示尽管一些编码系统已经能够达到还算好的效果,在自己的母语或者其他流行用语领域内,但是在不同的非母语情况下绝大部分仍然未能满足预期标准。此外,与包含图像内容一起学习如何识别和分析大量视觉信息的大型编码系统相比,它们无法捕捉到更多精细化细节的情况也同样存在于这里。这让我期待未来M3Exam 能够帮助相关技术开发迭代,最终让这些功能强大的工具适用于全球范围内的人们,以及提供更丰富实用的应用场景。我希望我的贡献能够促进这一愿景向前迈进。

标签: 智能家装怎么装修ai人工智能软件智能手表的功能及用途智能制造工程专业考研方向ai人工智能技术