科技时代达摩院大模型测试基准公布GPT-4勉强通过其他模型全数未及格

2025-02-23 智能 0

在科技的光辉下，我们见证了人工智能领域的一个重要里程碑——达摩院多语言NLP团队发布了首个多语言多模态测试基准M3Exam，共涵盖12317道题目。这项工作对促进模型的发展具有至关重要的意义，因为随着大模型的不断推出，如何进行有效评估变得越来越迫切。人类考题已经被广泛应用于检验模型知识及推理能力，而对于多语言和多模态的大型模型，之前缺乏相应的评测标准。

阿里巴巴达摩院团队意识到了这一需求，便发起创建了M3Exam，以弥补这一空白。这个测试基准具有三重特性：Multilingual（跨语言），Multimodal（跨感官），以及Multilevel（跨教育阶段）。它涵盖了9种不同的国家语言，并从各自国家的官方试题中挑选问题，同时也包括带图片的问题以便更全面地测试模型性能。

通过对各种开源和闭源模型进行测试，我们发现大部分模型表现不佳，即使是参数量相近但没有使用图片输入的Flan-T5模型，也无法取得高于50% 的正确率。进一步分析显示，这可能是因为现有的多模态数据过于简单，而人类考题则要求更深层次对图片内容理解。

最令人意外的是，大部分模型在不同教育阶段的问题上表现一致，都在中等阶段达到最高点。而实际上，对于基础知识的问题，人们通常能够轻松解决，但却难以让机器做到同样的水平。这给我们提出了一个问题：是否仅通过不断增加难度来测试机器能否真正衡量其差异？

综上所述，本文介绍了一项旨在为评价新兴技术提供依据的心智产物——M3Exam，它将成为未来研究与开发过程中的关键参考标准，为确保AI技术能够安全、可靠地服务于更多人的日常生活奠定坚实基础。

标签： 2022年最好的智能手表、人工智能案例、智能手机哪年上市的、全屋智能系统哪个好、世界智能网联汽车大会

上一篇：科学研究-探索分子筛技术解析其在化学分析中的应用与前景

科技时代达摩院大模型测试基准公布GPT-4勉强通过其他模型全数未及格

哥布林洞窟樱花未增删带翻译-绚烂的幻想哥布林洞窟中无需增删的樱花美景

摄影爱好者的心得分享我和我的索尼a6300拍出精彩的日常生活

松下的数字变焦技术让每个瞬间都显得重要

智能家居推广脑机接口技术即将应用于家庭生活

绚烂瞬间探索唯美人像摄影的艺术魅力