2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
在本文中,我们将深入探讨阿里巴巴达摩院多语言 NLP 团队发布的首个多语言多模态测试基准 M3Exam,以及它如何为评估大模型提供了一个全新的视角。通过分析 M3Exam 的特性和测试结果,我们可以更好地理解当前大模型在处理不同语言和模态的问题能力,进而促进其发展。
M3Exam 是一种全新的测试方法,它不仅涵盖了12317道题目,而且还具有三重特色:Multilingual(多语言)、Multimodal(多模态)以及Multilevel(多阶段)。这使得它能够评估模型在不同教育阶段、不同的智力要求下,以及跨越不同的文化背景下的表现。
我们选择了9种国家的官方试题,包括英文、中文、意大利语、葡萄牙语等,这些试题既考察了知识积累,也检验了推理能力。此外,M3Exam同时包含带图片的问题,以此来评价模型对图像信息的理解能力。这些问题覆盖小升初、中高考三个重要教育阶段,使得评测结果更加全面。
通过使用开源和闭源的大型机器学习模型进行实验,我们发现大部分模型都无法达到50%以上的准确率。这表明,即便是目前最先进的大型机器学习系统,对于处理复杂问题仍有很大的提升空间。在进一步分析这些结果时,我们发现现有的数据集可能过于简单,而人类考题往往需要对图片进行更深层次的理解。
这个观点提出了一个关键问题:是否应该采用更困难的数据集来测试模型?如果这样做能帮助我们更好地了解到哪些方面需要改进,那么这样的方法可能会更加有效。然而,如果我们的目标是要开发出能够实际应用于AI教育等领域的大型机器学习系统,那么研究它们在基础问题上的表现同样重要,因为这关系到它们是否能真正服务于人们。
综上所述,本篇文章展示了一种全新的方式来评估大型机器学习系统,这种方式基于一套名为M3Exam的测试基准。虽然目前成果并不令人满意,但它为未来的研究方向指明了一条道路,并且已经吸引了广泛关注。如果我们能够不断完善这种方法,并且用它来指导开发者如何改进他们的算法,那么最终将会导致我们拥有更加强大的工具,从而让所有人都能从中受益。