2025-02-23 智能 0
在科技的光辉下,我们见证了人工智能领域的一个重要里程碑——达摩院多语言NLP团队发布了首个多语言多模态测试基准M3Exam,共涵盖12317道题目。这项工作对促进模型的发展具有至关重要的意义,因为随着大模型的不断推出,如何进行有效评估变得越来越迫切。人类考题已经被广泛应用于检验模型知识及推理能力,而对于多语言和多模态的大型模型,之前缺乏相应的评测标准。
阿里巴巴达摩院团队意识到了这一需求,便发起创建了M3Exam,以弥补这一空白。这个测试基准具有三重特性:Multilingual(跨语言),Multimodal(跨感官),以及Multilevel(跨教育阶段)。它涵盖了9种不同的国家语言,并从各自国家的官方试题中挑选问题,同时也包括带图片的问题以便更全面地测试模型性能。
通过对各种开源和闭源模型进行测试,我们发现大部分模型表现不佳,即使是参数量相近但没有使用图片输入的Flan-T5模型,也无法取得高于50% 的正确率。进一步分析显示,这可能是因为现有的多模态数据过于简单,而人类考题则要求更深层次对图片内容理解。
最令人意外的是,大部分模型在不同教育阶段的问题上表现一致,都在中等阶段达到最高点。而实际上,对于基础知识的问题,人们通常能够轻松解决,但却难以让机器做到同样的水平。这给我们提出了一个问题:是否仅通过不断增加难度来测试机器能否真正衡量其差异?
综上所述,本文介绍了一项旨在为评价新兴技术提供依据的心智产物——M3Exam,它将成为未来研究与开发过程中的关键参考标准,为确保AI技术能够安全、可靠地服务于更多人的日常生活奠定坚实基础。