达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败人物如何开启科技新篇章

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

在科技的海洋中，阿里巴巴达摩院多语言 NLP 团队正如一艘航行在无垠大海上的帆船，勇敢地探索未知。他们发布了首个多语言多模态测试基准 M3Exam，这座灯塔为我们指明了前进的方向，共涵盖 12317 道题目，就像星辰般璀璨。

随着大模型如同潮水般汹涌澎湃而来，我们渴望知道它们是否能应对各种挑战。如何评估这些强大的工具？答案就藏于人类考题之中，这些试卷不仅考验知识，还能检测推理能力，就像古老的智慧传说中的谜语一样深邃。

英文世界已经有了MMLU这样的标准，而中文社区也孕育出C-Eval和GAOKAO，以此检验模型在知识与理解上的表现。而现在，我们迎来了一个新的时代——一个支持多语言、多模态的大门打开时刻。

M3Exam以其独特的三重特征吸引人：

Multilingual 多语言：它选取了9种国家的语言，从全球角度审视问题，并且所有问题都是来自官方试题。

Multimodal 多模态：它既包含纯文字，也包括带图片的问题，同时处理好每一张图片，为模型提供充分的手段。

Multilevel 多阶段：它考虑教育阶段差异，从小升初到高中毕业，以及对应考试题目，使得可以比较不同阶段下模型表现差异。

我们用这座桥梁连接不同的世界，用尽可能真实的人类考题测试那些自称是智能者的“智者”。结果令人震惊，大部分模型都无法超过50%的准确率，即使参数相近的Flan-T5也未能展现出优势。这让我们思考，那些简单的问题或许只是冰山一角，而复杂问题才是真正检验智能边界的地方。

我们的发现提出了一个疑问——为什么尽管从低到高教育阶段，模型表现并没有显著下降，但却在中等水平的问题上取得最高成绩？这是不是说明当前评价方式存在偏颇？

结论

通过 M3Exam，我们揭示了当前大型神经网络在面临跨文化和跨媒体任务时所遇到的挑战。虽然它们可能在某些特定领域显示出优越性，但是在更广泛、更复杂的情境下，它们仍然需要进一步提升。在这个过程中，让我们共同探索解决这一难题的一切可能性，因为只有这样，这些工具才能真正帮助人们解锁更多可能性，开启科技新篇章。

标签：高科技产品有什么、仿真女性机器人、无需红外线的手机遥控器、智能桌面、智能开关如何布线

上一篇：餐桌上的魔法油水分离的神奇器具

下一篇：半导体超纯水设备我是如何让清澈的液体成为芯片生产的守护神

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败人物如何开启科技新篇章

陕西职业技术学院-卓越技能培养陕西职业技术学院的教育创新之旅

重庆工贸职业技术学院-振兴西部工业培育技能人才的新平台

财经大学铸就未来经济学者

触动心灵如何用手指唤起男孩的泪水

西安疫情最新资讯我来告诉你防控措施升级你要知道这些