2025-02-23 智能 0
在科技馆中,达摩院的多语言自然语言处理团队发表了他们的最新研究成果:一个名为M3Exam的大型测试基准,该基准旨在评估多语言和多模态大模型的能力。这个项目是对当前评测技术的一次重大创新,它不仅包括了12317个问题,而且还涵盖了来自9个国家的不同语言,包括英语、中文、意大利语、葡萄牙语等,这些都是官方试题。
M3Exam有三个核心特点:首先,它支持多语言,即它可以理解并处理来自不同国家和地区的人们使用的各种语言;其次,它具有多模态特性,因为它不仅包含文字问题,还包括带图片的问题,以便更全面地测试模型;最后,它设计成了三阶段,即小升初、中升高、高考毕业,每个阶段都基于该阶段的官方考试题目来构建,以便比较不同教育水平下模型表现之间的差异。
为了测试这些新发布的大型模型,我们选择了一些开源和闭源模型进行评测。结果显示,大部分模型都未能取得令人满意的地面表现,其中一些甚至没有超过50%正确率。这让我们对现有的数据质量产生了疑问,因为它们可能过于简单,不足以真正检验复杂任务上的性能。此外,我们发现即使是在较低教育水平下的简单问题上,几乎所有参与者都表现出色,但这与人类学生解决基础问题时所展现出的直觉并不一致。
这项研究提出了一个重要观点:如果想要确保AI系统能够在实际应用中提供可靠服务,就需要更深入地了解它们在基础任务上的不足之处,而不仅仅是通过不断增加难度来推动它们向前发展。此外,这也提醒我们对于目前广泛使用的大型模型来说,其学习过程中的缺陷可能会影响到其最终输出,从而导致错误或误导性的信息传播。
总结而言,本文介绍了一种全新的评价标准M3Exam,并展示了这一标准如何揭示了当前大型机器学习模型面临的一系列挑战。在未来的工作中,我们期待着利用这种新的评价工具来改进这些关键技术,并将其应用于各行各业,以实现更加智能化和人性化的人工智能产品。