2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
在过去的一段时间里,随着大型模型的不断涌现和发展,我们对如何更好地评估这些模型的需求日益增长。其中一个重要的方向就是通过使用人类设计的问题来检验它们,这样可以测试模型的知识获取能力和推理能力。例如,对于英文模型,MMLU已经被广泛使用以评估其在多个学科领域中的表现。而对于中文社区,也出现了类似C-Eval以及GAOKAO这样的工具,它们利用中文试题来测试模型,尤其是中文大型模型。
然而,对于支持多种语言和多种模态的大型模型来说,由于缺乏相应的评测标准,这些新兴技术面临着巨大的挑战。正是在这个背景下,阿里巴巴达摩院发布了首个针对这种类型的大型测试基准——M3Exam,以促进此类评测技术的发展,并将论文、数据及代码公开提供给研究者。
M3Exam具有三个关键特征:
多语言(Multilingual):该基准包括9种不同的国家语言,如英语、汉语、意大利语等,并且所有问题都来自各自国家官方试题。
多模态(Multimodal):除了纯文字题目外,还包含带图片的问题,并且详细处理了所有图片,使得它们能够方便地被分析。
多阶段(Multilevel):考虑了小升初、中升高、高中毕业教育阶段,每个阶段从官方考试中选取题目,从而使得可以比较不同智力要求下的不同表现。
我们选择了一系列开源和闭源的大型模型进行测试,以考察它们在多语言方面的性能。结果显示,大部分模式表演并不佳,即使没有任何一个能达到50%以上正确率。大体上,与参数量相近但不具备图像输入功能的Flan-T5相比,虽然存在一些差异,但总体上并未展现出显著优势。
进一步观察发现,由于目前普遍使用的小模态数据简单性质,如VQA只询问图片的一个方面,而人类考题通常需要理解更复杂信息,比如数学类考试中要注意数字细节。在实际情况中,我们发现尽管从低到高教育水平,没有明显下降趋势,但几乎所有模式都在中等水平问题上表现最佳。这与人们直觉上的期望形成鲜明对比,因为即便是基础级别的问题,对AI而言似乎也难以解决。
这项观察为我们揭示出,在持续改善这些系统时,不仅要增加难度,还应该关注基本问题为什么会导致错误。如果想真正依赖这些系统进行实际应用,比如AI辅助教育,那么探索这一点可能更加有价值。
结论
本文介绍了我们的新创造性的评价基准M3Exam,其目标是为评价大规模、大类型化、大模态化大型学习设备提供可靠参考。此次实验所获得结果表明,即便那些资源丰富甚至覆盖中文这样的主要资源仍然无法有效工作,而绝大部分模式在各种其他非主流语言上的效果同样令人失望。对于能够捕捉图片简单特征但不能精确捕捉更多细节的情况,更是暴露出了当前多模态系统存在不足的地方。我希望未来通过M3Exam,我国以及世界各地开发者能够迭代他们产品,将其带入更多用户手中,为全球范围内无论哪一种用途的人们提供更加深入、全面的服务与帮助。
下一篇:不锈钢型材规格与价格全解析