科技画报达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam，共涵盖 12317 道题目。

随着大模型的发展，尤其是近来各种开源大模型的发布，如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型，从而可以测试模型的知识及推理能力。例如对于英文模型，MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的，最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型，特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用，然而对于多语言 / 多模态大模型，相应的评测依然是一片空白。由此，我作为阿里巴巴达摩院多语言 NLP 团队的一员，在深入研究后，我们发表了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展，并公开了论文和数据代码：

正如名字所示，M3Exam 有三个特征：

Multilingual 多语言：我们综合考虑语言特点、资源高低、文化背景等多个因素，并挑选了 9 个国家对应的一些主要使用语种，其中包括英文、中文以及其他几种非英语和非汉语语种，以便于更全面地评价这些不同类型的大型神经网络系统。

Multimodal 多模态：我们同时考虑纯文字以及带图片的问题，以及处理所有图片以方便这些基于图像信息的大型神经网络系统进行处理。

Multilevel 多阶段：我们从小升初到高中毕业这三個关键教育阶段中选择问题，使得可以比较不同智力要求下各自不同的学习材料上，大型神经网络系统（或称为"AI"）性能差异。

通过这个标准，我们选取了一系列开源和闭源的大型神经网络系统进行了它们在面对不同自然言语中的能力范围实验，这一结果显示出绝大部分参与者都取得不错成绩，即使没有任何人能达到50%以上正确率。这与 Flan-T5 模型相比，其虽然并没有输入图片，但在一些相关参数量相同的情况下，它们基本上展示出很大的优势。

进一步检查我们发现，有可能现有的简单数据集导致较少复杂性，因为VQA通常只询问关于某一方面简单的问题，而人类考试往往涉及更复杂层面的理解，如数学或科学考试中需要注意数字细节。在以下例子中给出了具体问题以及每位参赛者的输出：

我注意到，不同教育水平并不影响这些AI程序行为趋势显著变化，而他们似乎在基础问题上表现最好。但是，对于人类来说，如果他们能够获得70%左右正确答案，他们应该轻易解决小学级别的问题，但AI却无法这样做。

这让我思考的是，即使不断提高难度以衡量AI程序之间差异，这可能不会最大限度地揭示它们之间差异。如果想要让AI在实际应用场景中有效工作，比如用于教育领域，则研究为什么它们会犯错误可能更加有价值。

总结

本文介绍了一项新的M3Exam标准，该标准旨在为评价具有大量词汇库大小但未必包含所有自然言语内容的大型神经网络提供一种可靠方法。根据目前已知结果，大部分参加实验的人物已经能够得到不错效果甚至超过60%甚至80%正确率，在诸如英语或者汉语这样的“高资源”言语环境中，但是在跨文化交流或使用者众数仍需提升自身技能时，大部分参与者则未能达到预期。此外，由于尚未能捕捉精确细节，因此即使拥有“视觉”功能，也无法解释图像中的复杂信息。我期待未来该新标准将帮助开发人员改进相关技术，为全球更多用户提供服务，同时扩展潜在应用场景。

标签： ai技术包括哪些技术、智能服务、 ai人工智能训练师、生活中常用的智能产品、生活中有哪些人工智能

上一篇：窈窕如她-倩影轻纱探寻窈窕如她背后的古典韵味

下一篇：红魔手机官网苹果iPhone 8降价至4800元你还在犹豫吗

科技画报达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败

家居美学从空地到梦屋的装修奇遇

厨房局部装修-精致改造让厨房小区间更具个性化魅力

百分之五十的美丽空间100平半包装修价格大揭秘

家庭小户型也能享受精致生活一套百分之五十的全方位评测

理财智囊团装修预算的面积谜题解析