2025-02-23 智能 0
在科技处官网上,达摩院多语言NLP团队发布了首个多语言多模态测试基准M3Exam,涵盖12317道题目。这项工作对于评估大模型尤为重要,因为随着各种开源大模型的出现,如何对它们进行充分且准确的评估变得越来越关键。人类考题已被广泛采用来检验模型的知识及推理能力,如MMLU用于评估英文模型,以及C-Eval和GAOKAO用于中文社区。
然而,对于多语言/多模态大型机器学习系统,这类评测一直缺失。因此,阿里巴巴达摩院多语言NLP团队开发了M3Exam,以促进此类评测的发展,并将论文和数据代码公开。
M3Exam具有三个特点:Multilingual(支持9种国家语言),Multimodal(包含纯文字和带图片的问题),以及Multilevel(从小升初到高中毕业考试提供问题)。
通过使用开源、闭源等不同类型的大型机器学习系统进行测试,我们发现大部分模型表现不佳,大部分没有超过50%的准确率,即使与相似参数量的大型Flan-T5模型相比,也未能体现出优势。
进一步分析,我们发现可能是因为目前存在的问题数据简单,而人类考题需要对图片理解更复杂。结果显示,无论是在较低还是较高教育阶段,大部分模式都表现出色,但在中等阶段表现最佳,这与我们期望的人类性能有所不同。
这项研究揭示了使用更困难数据集并不能最大限度地衡量模型差异。如果想要可靠地在实际生活中应用这些工具,比如AI教育,我们应该研究为什么这些模式会在基础问题上犯错而不是仅仅依赖于它们在复杂任务上的性能。
最后,本文介绍了新创建的测试基准M3Exam,其目标是为评价这种类型的大型机器学习系统提供一个可靠的标准。根据当前测试结果,不少模式已经能够取得还算不错的地面效果,但在多语言环境下绝大部分模式仍然存在显著差距。此外,尽管现代技术可以捕捉简单特征,但无法捕捉更精细的情景细节。我们期待未来通过这样的标准,可以帮助相关技术迭代,从而将其便利带给所有人群,并拓展更多用途场景。
上一篇:离心风机型号及参数详细介绍
下一篇:天空的重压揭秘大气层的奥秘