2025-02-23 智能 0
在科技强国的征途中,达摩院多语言NLP团队发布了首个多语言多模态测试基准M3Exam,以评估大模型的知识与推理能力。这个基准集成了12317道题目,涵盖了9种不同国家的官方试题,包括英文、中文、意大利语等,并且包含了纯文字和带图片的问题,以适应不同教育阶段的需求。
为了验证M3Exam的有效性,阿里巴巴达摩院团队选取了各种开源和闭源模型进行测试。结果显示,大部分模型都表现不佳,没有一个能达到50%以上的正确率,即使是参数量相似的Flan-T5模型也未能展现出优势。这表明现有的多模态测试数据可能过于简单,对人类考题中的复杂理解能力要求较高。
这项研究揭示了一点有趣的事实:即便是在更高教育阶段的问题上,大型语言模型并没有显著下降,而在中等教育阶段问题上的表现最好。然而,这样的结果对实际应用来说并不令人满意,因为它意味着这些模型在基础问题上的错误率仍然很高。
通过这种方式,我们得出了结论:不断使用更难的问题去测试机器学习算法并不一定能够最大限度地衡量它们之间的差异。如果我们想要依赖这些算法来解决实际问题,比如AI辅助教学,那么探索它们在基础任务上的错误原因将更加重要。
总之,本文介绍了新的评估工具M3Exam,它旨在为多语言和多模态的大型语言处理系统提供一个可靠的评价标准。从目前的情况来看,即使一些系统已经可以取得不错成绩(例如英文或中文),但面对更多样化的情境,他们仍然存在巨大的挑战。此外,由于当前的大型语言处理系统仅能捕捉到图片的一些基本特征而无法捕捉细节,我们期待M3Exam能够帮助改进这些技术,使其能够为所有人群提供更好的服务,并拓展其应用场景。
上一篇:工业风暴气力输送设备的强劲推动者