重庆科技馆人工智能大模型测试基准发布GPT-4勉强通过其他模型全数未能及格

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam，共涵盖 12317 道题目。

随着大模型的发展，尤其是近来各种开源大模型的发布，如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型，从而可以测试模型的知识及推理能力。例如对于英文模型，MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的，最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型，特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用，然而对于多语言 / 多模态大模型，相应的评测依然是一片空白。由此，阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展。

正如名字所示，M3Exam 有三个特征：

Multilingual 多语言：我们综合考虑语言特点、资源高低、文化背景等因素，我们挑选了9个国家对应的大型公共考试数据集，这些问题均来自于对应国家教育部或考试组织官方提供的问题库。

Multimodal 多模态：我们同时考虑纯文字以及带图片的问题，并且认真处理所有图片使其易于处理，以便于机器学习算法能够理解和分析图像内容。

Multilevel 多阶段：我们的数据库覆盖从基础到高级水平的大量问题，使得可以比较不同教育阶段下不同智力要求下，对同一任务性能差异。

为了验证这些标准，我们选择了一系列不同的开源和闭源的人工智能系统进行测试。在使用这些系统时，我们发现绝大部分系统都无法达到50% 的正确率。这表明，即使参数量相当，大型开放领域自然言语处理（Flan-T5）与其他基于视觉问答（VQA）的方法相比，它们在解决复杂问题方面仍然存在显著不足。

进一步分析显示，那些简单的问题通常需要很少甚至没有任何额外信息，而那些更为复杂的问题往往涉及到对图像细节更深层次理解，如数学竞赛中的数字识别。此外，当它们面临中等难度问题时，他们通常表现最佳，但这并不意味着他们能轻松解决小学水平的问题，因为实际上这是人类学生完成这一任务应该容易的事情，但却让人工智能感到困难。

这个观察引发了一些有趣的问题，比如为什么尽管许多AI系统在某些领域已经取得巨大的成功，但它们似乎仍然无法轻松地解决最基本的问题？是否真的有必要不断提高难度以最大限度地衡量AI性能？或者是否应该更加关注它们如何错误解释基础概念？

总结来说，本文介绍了新的评价标准M3Exam，它旨在为新兴的人工智能领域提供一种全面的评价工具。在当前的情况下，这项工作揭示出即使是最新的大型AI系统，也还远未准备好真正服务于世界各地不同的用户群体。如果我们希望将这种技术应用于实践中，就必须继续改进它，以适应每种文化和教育体系中的需求。

标签：全屋智能装修、机器人老婆专卖店、智能建造就业方向及前景、 ai智能问答、 2022人工智能电影

上一篇：恒温恒湿-智能家居系统让生活更舒适节能更高效

下一篇：达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败科技生活手抄报内容让人物感受智能时代的变革

重庆科技馆人工智能大模型测试基准发布GPT-4勉强通过其他模型全数未能及格

仪器检测是什么工作-精确探测揭秘仪器检测工作的神秘面纱

李世民穿越成为刘禅人工智能ChatGPT40的科技论文范文之奇幻创作犹如天上的流星划过夜空出人意料而

飞傲BTR3迷你蓝牙解码耳放开箱图赏

探索仪器世界各类仪表的应用与分类

智能ai原创官方app翱翔送餐上海无人机外卖试运营启幕第三季度PC市场报告出炉