达摩院发布第三次科技大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam，共涵盖 12317 道题目。

随着大模型的发展，尤其是近来各种开源大模型的发布，如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型，从而可以测试模型的知识及推理能力。例如对于英文模型，MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的，最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型，特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用，然而对于多语言 / 多模态大模型，相应的评测依然是一片空白。由此，我作为阿里巴巴达摩院多语言 NLP 团队的一员，在深入研究和开发后，我们发布了首个多语言多模态测试基准 M3Exam，以推动此类评测的发展，并将论文和数据代码公开：

正如名字所示，M3Exam 有三个特征：

Multilingual 多语言：我们综合考虑语言特点、资源高低、文化背景等因素挑选了9个国家对应的大型数据集，这些问题均来自于对应国家官方考试系统中的人口普查、历史事件或文学作品等内容。

Multimodal 多模态：我们同时处理纯文字以及带图片的问题，并且认真处理所有图片以方便AI处理。

Multilevel 多阶段：我们从小学生到高中生再到大学生的学习材料中获取问题，使得可以比较不同智力要求下不同阶段下的智能差异。

我选择了不同的开源和闭源模式进行实验，他们在面对这些问题时的情况如下：

结果显示，大部分性能都很糟糕，即使参数量相似但不包含图像输入的情形（Flan-T5），即使如此，大部分其他模式仍未能超过50% 的正确率。

进一步检查，我们发现可能因为当前用于训练这些模式的问题太过简单，而人类考题往往需要更复杂地理解图片细节，如数学竞赛中的数字识别。此处给出一个具体例子：

令人意外的是，与教育水平提升无关的是每一项任务上性能基本保持一致。这意味着尽管所有人都认为应该能够轻易解决基础级别的问题，但实际上它们似乎并不容易。

这个观察提供了一条启发性路径，那就是不要通过更难的问题去不断提高标准，因为这并不一定能最大限度地揭示各自优势。如果想要在日常生活中使用AI，比如教育领域，就必须解释为什么这些智能系统会犯错，这将有助于他们成为更加可靠的人工智能辅助工具。

总结

本文介绍了我们的新创建标准M3Exam，它旨在为评价具有跨语种和跨媒体功能的大型神经网络提供一个标准化平台。在目前获得到的信息中，我们看到了虽然一些较先进的大型神经网络已经能够取得相当好的成绩，无论是在英语还是汉语环境下，但当涉及到真正世界范围内使用时，其表现却显著降低。这表明目前开发者们还没有找到让它们适用于任何一种非英语环境有效工作方式。而基于视觉元素与文本结合使用的情况则更加困难，因为它不能捕捉到精确细节，只能捕捉简单特征。我希望未来通过这个新的项目，将帮助相关人员改善他们正在开发的大型神经网络，从而为全球用户提供更多样化、高效、大规模应用场景下的服务。

标签：人工智能包括什么专业、智能化系统八大分类、智慧语音下载安装、智能的四个特征、华为智能遥控app

上一篇：活力源自土壤小型炭化工艺的诗意编织

下一篇：科技变革7个月了中国AI大模型仍未赶上ChatGPT的步伐

达摩院发布第三次科技大模型测试基准GPT-4勉强及格其他模型悉数落败

恒温恒湿我家为什么总是那么舒服

固体药品检测-精确检验保障药品质量安全

聚乙烯管材的未来PE100级是否能满足市场需求

污水废水处理高效设备环保污水处理系统

污染之河净化之源抽象的废水处理诗篇