2025-02-23 智能 0
在达摩院的多语言NLP团队中,有一位专注于机器学习的人物,名叫李明。他一直关注着大模型的发展,以及如何更好地评估这些模型。最近,阿里巴巴达摩院发布了一个多语言多模态测试基准M3Exam,这让李明感到兴奋。
这个测试基准涵盖了12317个题目,是首次为各种大模型提供了一种全面的评估方式。它不仅包含纯文字问题,还包括带有图片的问题,并且从小升初、初升高到高中毕业的三个教育阶段挑选了对应的官方试题。这使得李明能够比较不同阶段下不同智力要求下的模型表现差异。
为了检验M3Exam的有效性,李明和他的团队选择了多种开源和闭源的大型语言模型进行测试。结果显示,大部分模型表现都非常糟糕,只有极少数能达到50%以上的准确率,即使是参数量相近的Flan-T5模型,也未能显著提高性能。
进一步分析后,他们发现现有的多模态数据可能过于简单,而人类考题则需要对图片进行更复杂理解。他们发现所有模型在中等教育阶段的问题上表现最好,但却无法轻易解决基础问题,比如小学考试中的简单题目。
这项研究提出了一个重要观点:使用越来越困难的数据去测试模型并不是衡量它们最大潜力的最佳方法。如果想要确保AI在实际应用中可靠运行,如用于教育辅助,那么应该重点研究它们为什么会犯错而非只是追求高分率。
对于未来,李明相信M3Exam将成为推动这一领域发展的一股力量,它将帮助开发者迭代改进大型语言和视觉识别能力,从而为全球用户带来更多便利和丰富的情境使用场景。