科技之光发布大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

科技之光专栏

机构：达摩院多语言NLP

我，科技之光，带领阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam，涵盖 12317 道题目。

随着大模型的兴起，尤其是近期各种开源大模型的推出，我深知如何对这些模型进行充分且准确评估变得至关重要。其中一个越来越受欢迎的方法就是利用人类考题来检验它们，从而可以测试它们在知识和推理能力方面的表现。例如，对于英文模型，MMLU 已经被广泛使用来评估它们在多个学科上的表现。而类似的，在中文社区中，也出现了如 C-Eval 和 GAOKAO 这样的工具，用以测试中文模型。

这样的测试基准对于促进模型发展至关重要，但对于多语言 / 多模态大型机器学习系统来说，这类评测依然是一片空白。我因此发起了阿里巴巴达摩院多语言 NLP 团队创造了首个用于此类评测的大型机器学习系统 M3Exam，以推动这一领域的发展，并将论文和数据代码公开。

正如这个名字所示，M3Exam 有三个显著特点：

Multilingual 多语言：考虑到不同的语种、资源分布、文化背景等因素，我挑选了 9 个国家对应的主要语言——包括英语、汉语、意大利语、葡萄牙语、新加坡荷兰语（南非荷兰语）、斯瓦希里语、泰语以及爪哇語——并从各自国家官方试题中获取问题。

Multimodal 多模态：除了纯文字，还包含图片问题，并且精心处理所有图片，以便更好地支持模型处理图像信息。

Multilevel 多阶段：我选择三个教育阶段的小升初、中升高、高中学位考试，每个阶段都从相应官方考试中抽取题目，以便比较不同智力要求下的不同表现。

我们用这套标准对各种开源和闭源的大型机器学习系统进行了测试。在结果上，我们发现绝大部分系统性能都非常糟糕，即使没有使用图片作为输入也无法达到50% 的正确率。即使与参数量相近但未使用图像输入的 Flan-T5 模型相比，大部分其他类型的样本显示出很少优势。

进一步分析，我们认为可能是现有数据集过于简单，比如 VQA 中通常只问关于一幅图中的某一方面的问题，而人类考卷则需要理解图像更多复杂细节，如数学或科学竞赛中的数字识别。这下面是一个具体例子，以及每种类型机器学习算法输出结果：

通过观察，可以看出尽管在较低水平到更高水平之间，没有明显下降趋势，但几乎所有算法都在中等水平的问题上表现最佳。然而，对于人类来说，如果能在高中毕业考试获得70% 左右正确率，那么解决小学级别的问题应该是轻而易举。但事实上，对于大型机器学习系统来说似乎不是这样。

这个观察给我们的启示是，不断增加难度并不一定能最大限度地衡量这些技术差异。如果想要可靠地将这些技术应用到实际生活场景，比如AI辅助教学，我们研究为什么这些技术会犯基础错误可能会更加有价值。

结论

这篇文章介绍了一项新创建的人工智能评价标准—M3Exam，其目标是在提供一种可靠评价标准以促进开发者了解他们产品功能。此次测试结果表明虽然许多主流自然语言处理系统已经能够取得不错成绩，但特别是在跨越不同国家和地区时，它们仍然存在重大不足。在涉及图像信息时，大部分设计为“视觉-文本”模式的大规模网络只能捕捉最基本层面的特征，而不能捕捉更精细化的情况。这让我期待未来通过M3Exam 我们能够帮助相关项目迭代，使得这种先进技术能够惠及世界各地的人群，并为新的应用场景打开可能性门扉。

标签：科技产品有哪些、智能手机多少钱、杨幂ai智能人脸替换脸造梦厂、一套智能家居系统大概多少钱、人工智能的作用及意义

上一篇：悠然自得的视频摇滚坐下来慢慢摇动生活

下一篇：滤清天地间的混沌油水分离过滤器的奇迹

科技之光发布大模型测试基准GPT-4勉强及格其他模型悉数落败

想开一家不锈钢加工厂我的生意计划

彩钢压瓦机高效节能的建筑材料成型设备

当咳嗽变异时应注意这三个可能是前奏症状的迹象

废旧电子产品回收环保电子废弃物转换利用服务

工厂清新之道除尘设备的选择与安装