2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
在过去的一段时间里,随着大模型的不断发展和开源模型的普及,对于如何进行有效评估变得越来越重要。特别是对于那些能够处理多种语言和模态的大型模型,其评估标准一直是一个空白。为了解决这一问题,阿里巴巴达摩院的多语言NLP团队推出了一个名为M3Exam的测试基准,该基准旨在促进这种类型的大型模型的发展。
M3Exam具有三个关键特点:Multilingual(多语言)、Multimodal(多模态)和Multilevel(多阶段)。它涵盖了来自9个国家和地区的官方考试题目,并且包括了带图片的问题,这样就可以更好地测试模型对不同类型信息的理解能力。
我们使用了一系列开源和闭源的大型模型进行测试,其中包括Flan-T5等相似参数量级别的小型模型。然而,不幸的是,大部分参与测试的大型模型都表现得不佳,即使是与它们参数量相似的Flan-T5也无法超过50%正确率。这表明目前大型模式还未能完全发挥出其潜力。
进一步分析,我们发现可能原因之一就是现有的多模态数据太过简单,而人类考题则需要对图片进行更加复杂的地理解释。这让我们意识到,为了全面评价这些大型模式,我们需要开发更加复杂、更接近实际应用场景的问题集,以便真正测量它们在面对各种挑战时所表现出的能力。
总结来说,M3Exam提供了一个新的框架,可以帮助我们更好地了解这些高级模式在不同的任务上表现的情况,以及他们还有哪些提升空间。此外,它还提醒我们,在设计评估标准时应该考虑到实际应用场景,以确保我们的结果是真实可靠的。在未来,我们希望通过持续改进这个基准,使得更多的人可以从中受益,并最终实现大规模使用这些先进技术。