2025-02-23 智能 0
在机器之心的专栏中,达摩院多语言自然语言处理团队推出了一个名为M3Exam的多语言多模态测试基准,这个基准涵盖了12317道题目,旨在评估各种大型模型的性能。随着开源大模型的不断出现,对这些模型进行有效评估变得越来越重要,其中一种方法是使用人类考题来测试模型的知识和推理能力,就像MMLU对英文模型表现有广泛应用一样。
然而,对于支持多种语言和模态的大型模型来说,缺乏相应的评测标准。为了解决这个问题,阿里巴巴达摩院发布了首个多语言多模态测试基准M3Exam,以促进这一领域的发展,并且论文和数据代码已经公开。
M3Exam具有三个特点:它支持多种语言,如英文、中文、意大利语等;同时考虑到纯文字和带图片的问题,并确保所有图片都经过处理;最后,它包含了来自不同教育阶段的小升初、中升高、高中毕业考试题目,使得可以比较不同智力要求下模型表现差异。
通过选取不同的开源和闭源模型进行测试,我们发现大部分模型表现不佳,没有超过50%正确率。大部分单词量参数相似的Flan-T5没有体现出优势,即使它们没有将图片作为输入。进一步分析显示可能是因为现有的测试数据过于简单,而人类考题需要更复杂地理解图片内容。
此外,我们注意到尽管从低级教育阶段到高级阶段,大部分模式效果并未显著下降,但却在中等水平的问题上表现最佳。这与我们期望的人类能够轻易解答基础问题形成鲜明对比,让人感到困惑。此外,由于目前难以通过更困难的问题来全面衡量各自模式之间差异,我们认为研究为什么模式会犯错可能更有价值,因为这对于实际生活中的AI教育应用至关重要。
总结起来,本文介绍了新创建的M3Exam用于评价支持多种语言及模态的大型模式性能的一个可靠基准。在当前的情况下,大部分模式在面对非母语环境时表现在很差,而其它方面则存在更多挑战。本计划希望未来能帮助相关项目迭代,从而为所有国家用户提供更加丰富功能以及场景。