达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败在十大高科技行业中引发人物关注

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

在过去的一段时间里，随着大型模型的不断涌现和发展，我们对如何更好地评估这些模型的需求日益增长。其中一个重要的方向就是通过使用人类设计的问题来检验它们，这样可以测试模型的知识获取能力和推理能力。例如，对于英文模型，MMLU已经被广泛使用以评估其在多个学科领域中的表现。而对于中文社区，也出现了类似C-Eval以及GAOKAO这样的工具，它们利用中文试题来测试模型，尤其是中文大型模型。

然而，对于支持多种语言和多种模态的大型模型来说，由于缺乏相应的评测标准，这些新兴技术面临着巨大的挑战。正是在这个背景下，阿里巴巴达摩院发布了首个针对这种类型的大型测试基准——M3Exam，以促进此类评测技术的发展，并将论文、数据及代码公开提供给研究者。

M3Exam具有三个关键特征：

多语言（Multilingual）：该基准包括9种不同的国家语言，如英语、汉语、意大利语等，并且所有问题都来自各自国家官方试题。

多模态（Multimodal）：除了纯文字题目外，还包含带图片的问题，并且详细处理了所有图片，使得它们能够方便地被分析。

多阶段（Multilevel）：考虑了小升初、中升高、高中毕业教育阶段，每个阶段从官方考试中选取题目，从而使得可以比较不同智力要求下的不同表现。

我们选择了一系列开源和闭源的大型模型进行测试，以考察它们在多语言方面的性能。结果显示，大部分模式表演并不佳，即使没有任何一个能达到50%以上正确率。大体上，与参数量相近但不具备图像输入功能的Flan-T5相比，虽然存在一些差异，但总体上并未展现出显著优势。

进一步观察发现，由于目前普遍使用的小模态数据简单性质，如VQA只询问图片的一个方面，而人类考题通常需要理解更复杂信息，比如数学类考试中要注意数字细节。在实际情况中，我们发现尽管从低到高教育水平，没有明显下降趋势，但几乎所有模式都在中等水平问题上表现最佳。这与人们直觉上的期望形成鲜明对比，因为即便是基础级别的问题，对AI而言似乎也难以解决。

这项观察为我们揭示出，在持续改善这些系统时，不仅要增加难度，还应该关注基本问题为什么会导致错误。如果想真正依赖这些系统进行实际应用，比如AI辅助教育，那么探索这一点可能更加有价值。

结论

本文介绍了我们的新创造性的评价基准M3Exam，其目标是为评价大规模、大类型化、大模态化大型学习设备提供可靠参考。此次实验所获得结果表明，即便那些资源丰富甚至覆盖中文这样的主要资源仍然无法有效工作，而绝大部分模式在各种其他非主流语言上的效果同样令人失望。对于能够捕捉图片简单特征但不能精确捕捉更多细节的情况，更是暴露出了当前多模态系统存在不足的地方。我希望未来通过M3Exam，我国以及世界各地开发者能够迭代他们产品，将其带入更多用户手中，为全球范围内无论哪一种用途的人们提供更加深入、全面的服务与帮助。

标签：全屋智能家居多少钱、人工智能的好处有哪些、人工智能的实际应用、人工智能包含哪些具体内容、人工智能的未来前景

上一篇：在选择大型净水设备时应该考虑哪些因素

下一篇：不锈钢型材规格与价格全解析

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败在十大高科技行业中引发人物关注

高效杀菌自动高压蒸汽灭菌器的应用与优势

辐照灭菌设备-光芒之下辐照灭菌设备的应用与未来发展

蒸汽之舞降膜的诗篇

连续离心過濾機對於細菌和病毒過濾效果如何

智能控制系统在现代灌装机械中的应用实例