当前位置: 首页 - 智能 - 重庆科技馆人工智能大模型测试基准发布GPT-4勉强通过其他模型全数未能及格

重庆科技馆人工智能大模型测试基准发布GPT-4勉强通过其他模型全数未能及格

2025-02-23 智能 0

机器之心专栏

机构:达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。

随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展。

正如名字所示,M3Exam 有三个特征:

Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等因素,我们挑选了9个国家对应的大型公共考试数据集,这些问题均来自于对应国家教育部或考试组织官方提供的问题库。

Multimodal 多模态:我们同时考虑纯文字以及带图片的问题,并且认真处理所有图片使其易于处理,以便于机器学习算法能够理解和分析图像内容。

Multilevel 多阶段:我们的数据库覆盖从基础到高级水平的大量问题,使得可以比较不同教育阶段下不同智力要求下,对同一任务性能差异。

为了验证这些标准,我们选择了一系列不同的开源和闭源的人工智能系统进行测试。在使用这些系统时,我们发现绝大部分系统都无法达到50% 的正确率。这表明,即使参数量相当,大型开放领域自然言语处理(Flan-T5)与其他基于视觉问答(VQA)的方法相比,它们在解决复杂问题方面仍然存在显著不足。

进一步分析显示,那些简单的问题通常需要很少甚至没有任何额外信息,而那些更为复杂的问题往往涉及到对图像细节更深层次理解,如数学竞赛中的数字识别。此外,当它们面临中等难度问题时,他们通常表现最佳,但这并不意味着他们能轻松解决小学水平的问题,因为实际上这是人类学生完成这一任务应该容易的事情,但却让人工智能感到困难。

这个观察引发了一些有趣的问题,比如为什么尽管许多AI系统在某些领域已经取得巨大的成功,但它们似乎仍然无法轻松地解决最基本的问题?是否真的有必要不断提高难度以最大限度地衡量AI性能?或者是否应该更加关注它们如何错误解释基础概念?

总结来说,本文介绍了新的评价标准M3Exam,它旨在为新兴的人工智能领域提供一种全面的评价工具。在当前的情况下,这项工作揭示出即使是最新的大型AI系统,也还远未准备好真正服务于世界各地不同的用户群体。如果我们希望将这种技术应用于实践中,就必须继续改进它,以适应每种文化和教育体系中的需求。

标签: 全屋智能装修机器人老婆专卖店智能建造就业方向及前景ai智能问答2022人工智能电影