2025-02-23 智能 0
在机器之心专栏中,达摩院多语言NLP团队与阿里巴巴合作,共同推出了M3Exam,这是首个针对多语言和多模态的大型测试基准。该测试基准涵盖了12317道题目,以评估不同模型的知识理解和推理能力。在此之前,虽然有C-Eval和GAOKAO这样的中文试题用于测试中文模型,但对于跨语言或结合图片信息的大型模型来说,没有相应的评测标准。
为了填补这一空白,达摩院团队设计了M3Exam,它具有三大特点:Multilingual(多语言)、Multimodal(多模态)以及Multilevel(多阶段)。这意味着它不仅包含来自不同国家的9种语言,而且包括纯文字和带图片的问题,并且从小升初、初升高、高中毕业等三个重要教育阶段获取官方考试题目,以便比较不同智力要求下的模型表现。
通过对开源及闭源模型进行测试,他们发现绝大部分模型都取得了很差的成绩,即使参数量相近的Flan-T5也未能超越50%正确率。这表明现有的简单问题可能不足以充分考验复杂数据处理能力,而人类考题往往需要更深入地理解图像内容。研究人员指出,如果想要提高AI在实际应用中的可靠性,我们应该更多关注它们在基础问题上的表现,而不是单纯追求难度较大的挑战。
总结来说,该文章介绍了一项名为M3Exam的新兴技术,它旨在为评价这些跨语境、融合视觉信息的大型神经网络提供一个公认的标准。此举不仅揭示了目前这些系统仍然面临重大挑战,也预示着未来随着技术进步,将会更加广泛地应用于全球范围内各类用户。