2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
在科技的海洋中,阿里巴巴达摩院多语言 NLP 团队正如一艘航行在无垠大海上的帆船,勇敢地探索未知。他们发布了首个多语言多模态测试基准 M3Exam,这座灯塔为我们指明了前进的方向,共涵盖 12317 道题目,就像星辰般璀璨。
随着大模型如同潮水般汹涌澎湃而来,我们渴望知道它们是否能应对各种挑战。如何评估这些强大的工具?答案就藏于人类考题之中,这些试卷不仅考验知识,还能检测推理能力,就像古老的智慧传说中的谜语一样深邃。
英文世界已经有了MMLU这样的标准,而中文社区也孕育出C-Eval和GAOKAO,以此检验模型在知识与理解上的表现。而现在,我们迎来了一个新的时代——一个支持多语言、多模态的大门打开时刻。
M3Exam以其独特的三重特征吸引人:
Multilingual 多语言:它选取了9种国家的语言,从全球角度审视问题,并且所有问题都是来自官方试题。
Multimodal 多模态:它既包含纯文字,也包括带图片的问题,同时处理好每一张图片,为模型提供充分的手段。
Multilevel 多阶段:它考虑教育阶段差异,从小升初到高中毕业,以及对应考试题目,使得可以比较不同阶段下模型表现差异。
我们用这座桥梁连接不同的世界,用尽可能真实的人类考题测试那些自称是智能者的“智者”。结果令人震惊,大部分模型都无法超过50%的准确率,即使参数相近的Flan-T5也未能展现出优势。这让我们思考,那些简单的问题或许只是冰山一角,而复杂问题才是真正检验智能边界的地方。
我们的发现提出了一个疑问——为什么尽管从低到高教育阶段,模型表现并没有显著下降,但却在中等水平的问题上取得最高成绩?这是不是说明当前评价方式存在偏颇?
结论
通过 M3Exam,我们揭示了当前大型神经网络在面临跨文化和跨媒体任务时所遇到的挑战。虽然它们可能在某些特定领域显示出优越性,但是在更广泛、更复杂的情境下,它们仍然需要进一步提升。在这个过程中,让我们共同探索解决这一难题的一切可能性,因为只有这样,这些工具才能真正帮助人们解锁更多可能性,开启科技新篇章。