我把科技上交国家达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

我把科技上交国家：达摩院发布大模型测试基准，GPT-4勉强及格其他模型悉数落败

随着大模型的兴起，尤其是近期各种开源大模型的推出，如何对这些模型进行全面的评估变得越来越重要。其中一个逐渐被接受的方法就是利用人类考试题目来检验它们，从而可以衡量它们的知识和推理能力。例如，对于英文模型，MMLU 已经广泛用于评估它们在多个学科上的表现。类似的，在中文社区中，也出现了如 C-Eval 以及 GAOKAO 这样的工具，它们使用中文试题来测试中文模型。

这样的测试标准对于促进模型发展至关重要，但对于多语言和多模态的大型神经网络来说，这方面仍然空白。因此，我将阿里巴巴达摩院多语言 NLP 团队发布的一个首个多语言和多模态测试标准 M3Exam 介绍给大家，以推动这一领域的发展，并且论文和数据代码已经公开。

正如其名称所示，M3Exam 有三个特点：

Multilingual 多语言：我们考虑了不同语言特点、资源丰富程度以及文化背景等因素，并选取了9种国家对应的语言，如英文、中文、意大利语、葡萄牙语等，以及南非荷兰语、斯瓦希里语、泰语和爪哇语。这一切都来自官方试题。

Multimodal 多模态：我们同时处理纯文字问题与带图片的问题，并确保所有图片均可供机器处理。

Multilevel 多阶段：我们选择了三个关键教育阶段——小升初、高升高、中考毕业——并从对应阶段的官方考试中获取题目，这样就能比较不同智力要求下的不同表现。

接下来，我们用一系列开源和闭源的大型神经网络进行了实验，以检查它们在跨语言能力上的表现：

结果表明，大部分模型性能不佳，有些甚至没有任何一个达到50%以上准确率，即使与参数相似的 Flan-T5 模型（Flan-T5 并未将图像作为输入）相比，大型神经网络也未能展现出优势。

进一步分析发现，由于现有数据可能过于简单，比如VQA 中往往只涉及图片的一部分，而人类考试则需要更深层次地理解图片内容，如数学类考试需要注意数字细节。在下面提供的一个具体问题及其各个系统输出中可以看出：

令人惊讶的是，不论是在较低还是较高教育水平的情况下，大型神经网络都没有显著下降。但是，对于所有大型神经网络来说，他们似乎在基础问题上都存在困难，即使他们能够在更复杂的问题上取得一些成果。此外，他们似乎无法很好地解答基础问题，这让人感到困惑，因为这通常应该是学习过程中的基本技能。

这个观察提醒我们，如果想要真正测量这些技术是否有效，我们可能需要更多关于为什么它会犯错而不是仅仅尝试让它做得更好。如果想真正利用这些技术去改善人们生活，比如通过AI 教育，那么了解为什么它会犯错可能更加宝贵。

总结

本文介绍了一项新开发的评估标准M3Exam，其目标是为评价跨语言/跨模态的大型神经网络提供一个可靠的手段。根据目前实验结果，我们看到虽然一些模式已经能够在某些主要资源丰富的地方取得还算不错的成绩，但是在跨文化环境中绝大部分模式都显得力不从心。而且，不同类型的大规模数据库显示出的性能差异并不那么明显，而且不能捕捉到精细化程度的事实表明当前设计的大规模数据库只能识别简单特征，而无法捕捉到更多精细化信息。我期待未来通过M3Exam 的普及，可以帮助相关开发者不断迭代，从而为全球用户带来便利，同时拓宽应用场景。

标签：智能家居有哪些功能、 ai是啥、人工智能的应用现状、中国人工智能应用、科技产品

上一篇：想开一家不锈钢加工厂我的生意计划

下一篇：探秘我在B站发现了一个大但人文艺术的宝藏频道

我把科技上交国家达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败

主题你知道吗这玩意儿超级有用别忘了今天我们来聊聊ppr管材型号一览表

粘度计测量液体粘稠程度的精确工具

机甲之箱封装未来世界的守护者

中国设备网新时代的智能制造驱动者

离心分离的原理与应用简析