当前位置: 首页 - 智能 - 浙江工商大学教授发表论文提出新大模型测试方法GPT-4勉强通过其他模型悉数不及格

浙江工商大学教授发表论文提出新大模型测试方法GPT-4勉强通过其他模型悉数不及格

2025-02-23 智能 0

机器之心专栏

机构:达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。

随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展。

正如名字所示,M3Exam 有三个特征:

Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等多个因素,我们选择了 9 个国家对应的一些主要语种,并从每个国家获取官方考试问题,以确保覆盖面和代表性。

Multimodal 多模态:我们既包含纯文字问题,也包括带图片的问题,并处理了所有图片以便于它们被使用。

Multilevel 多阶段:我们选取不同教育水平(小升初、中升高、高中毕业)的官方考试题目,这样可以比较不同教育阶段下不同智力要求下的结果。

我们的研究团队将 M3Exam 应用于一系列开源和闭源的大型神经网络模式上。在这些实验中,我们发现绝大部分模式都取得了很差甚至不超过50% 的正确率,即使与参数量相近但没有使用图像输入Flan-T5 模式相比,大型神经网络模式在提高其性能方面几乎没有什么显著改进。这表明目前存在于这些数据集中的简单图像任务可能不足以激发或展示出这类型系统真正理解视觉内容所需的心智能力。

进一步分析,我们发现虽然许多系统似乎能够跨度过不同的学习水平,但他们在中等难度的问题上表现最佳,而不是最困难或最容易的问题。这反映出这些系统可能缺乏深入理解图像内容所必需的心智过程,以及它们无法有效地适应复杂情况下的新信息。

这种观察引发了一些关于如何更好地衡量和提升这些系统性能以及他们应用于实际世界环境中的可能性产生思考。如果想要确保AI技术能够安全有效地用于教育领域,那么需要了解为什么这类系统会犯错,以及哪些方法能帮助他们更好地解决基础问题将是一个关键目标。

总结来说,本文介绍了一项名为M3Exam 的新的评价标准,其旨在为开发者提供一种标准化方式,以评价具有丰富自然语言处理功能的大型神经网络。此外,这项工作还揭示出了当前市场上广泛使用的大型神经网络模式,在涉及到非英语母语用户时仍然存在重大挑战。而且,它们通常不能捕捉到更加精细和详细的事实,因此未能完全体现出它们是否有能力进行视觉理解。此外,对未来基于这个评价标准进一步优化该技术以实现更多样的应用场景展望充满希望。

标签: 智能家居系统有哪些模块人工智能视频智能垃圾桶智能语音机器人哪个最好世界智能网联汽车大会