当前位置: 首页 - 智能 - 达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败唯我能点亮科技树

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败唯我能点亮科技树

2025-02-23 智能 0

机器之心专栏

机构:达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。

随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,我作为阿里巴巴达摩院多语言 NLP 团队的一员,在深入研究后,我们发表了首个多语言多模态测试基准 M3Exam 以推动此类评测的大步前进,并将论文和数据代码公开:

正如名字所示,我在创造这个名为 M3Exam 的系统时有三个特定的目标:

Multilingual 多语言:我综合考虑了每种语系、资源分布、文化背景等因素,将挑选出九种国家对应的心智工具箱,即英语、汉语、意大利语、葡萄牙语、越南语、三国联合法文(南非荷兰语)、斯瓦希里语、高棉人和爪哇人,每道问题均来源于它们各自国家官方考试系统。

Multimodal 多模态:我同时考虑到了纯文字与图片结合的问题,并且处理好了所有图像,以便让它能够更好地适用于我的分析过程。

Multilevel 多阶段:我选择从小升初到高中毕业这三个教育阶段中取材,这样做使得我们可以比较不同层次对应不同智力要求下各自团队成员性能差异。

通过这个新的标准,我们选取了一些开源和闭源的大型计算机程序进行实验,看看它们是否能胜任跨文化交流任务。这一系列实验结果显示:

几乎没有任何一种算法能达到50%以上正确率,大部分都显得相当不佳,即使与拥有相似参数量但未使用图片输入功能Flan-T5算法进行比较,该算法同样无法展现出明显优势。

进一步探究发现,由于目前普遍采用的问答(VQA)类型问题往往只涉及简单查询,而真实世界中的复杂情况则需要更深层次理解,比如数学类考试需要精确识别数字细节。我提供的一个具体例子展示了一个典型的问题以及不同的算法给出的答案:

惊人的发现是我所在团队的人们观察到的是,无论是在基础教育还是高级教育水平上,大型计算机程序似乎并没有出现明显下降趋势。但奇怪的是,它们似乎在中等水平的问题上取得最好的成绩。而我们人类通常认为,如果一个人能在高考中得到70%左右正确率,那么解答小学课本应该是轻而易举的事情,但这些巨大的智能化解决方案却无法完成这一点。

这个结论启发我们的思考是不仅要不断提高难度以衡量性能,还可能更加关键的是去理解为什么这些巨大的智能化解决方案会犯错。如果我们希望将这些技术应用于实际生活,比如AI辅导学习,那么解释他们何以失败就变得尤为重要。

总结

本文介绍了我们新开发的一个评价工具M3Exam,它旨在为那些设计支持无数自然语言之间互动的大型计算机程序提供一个稳定可靠的地标。在当前实验结果显示即使许多已经很成功地处理英语甚至中文的情境,大部分这种跨文化沟通任务执行者仍旧表现极糟。而另一方面,他们想要捕捉更多信息或精确细节,就必须提升自身能力。此外,这项工作还期待未来能够帮助相关项目迭代,使得这样强大的技术带给每个人,无论他们使用哪一种方言,以及更广泛范围内更多场景。

标签: 最新高科技产品有哪些家用智能系统人工智能的好处举例人工智能是干嘛的无需红外线的手机遥控器