科学技术部发布达摩院大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam，共涵盖 12317 道题目。

随着大模型的发展，尤其是近来各种开源大模型的发布，如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型，从而可以测试模型的知识及推理能力。例如对于英文模型，MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的，最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型，特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用，然而对于多语言 / 多模态大模型，相应的评测依然是一片空白。由此，我作为阿里巴巴达摩院多语言 NLP 团队的一员，我们发布了首个多语言多模态测试基准 M3Exam，以推动此类评测的发展，并将论文和数据代码公开：

正如名字所示，M3Exam 有三个特征：

Multilingual 多语言：我们综合考虑语言特点、资源高低、文化背景等因素，将挑选了 9 个国家对应的大量官方试题，同时保证所有问题均来自于对应国家。

Multimodal 多模态：我们同时考虑纯文字以及带图片的问题，并认真处理每一张图片以便于它们能够被正确地理解和分析。

Multilevel 多阶段：我们从小升初、高中毕业等三個教育阶段中选择各自阶段中的官方考试题目，这样就能比较不同智力要求下不同教育阶段下的不同表现。

我使用这个新创建的人工智能系统进行了一系列实验。我发现，大部分参与测试的大型人工智能系统都未能达到50% 的答案正确率。这让我开始思考的是，我们是否已经对这些系统做出了过度乐观的情报预期？或者说，他们真的只是还没有准备好去完成复杂任务？

通过进一步分析，我发现在使用这些系统之前，我们需要为他们提供更有挑战性的任务。如果想要最大限度地提高这些建设性反馈的话，就必须让我们的AI在实际生活场景中应用起来，而不是仅仅在简单的问题上练习。

总结一下，这篇文章介绍了一项全新的评价标准——M3Exam，它旨在为那些支持许多不同的自然语音输入的人工智能提供一种有效方法。在进行这一研究时，我意识到尽管目前存在一些流行的人工智能产品，它们仍然无法满足人们日常生活中的需求。为了解决这个问题，我们需要不断改进我们的技术，使其更加全面、灵活和适用于各种情况。此外，还应该开发出更好的工具和技术，以帮助人们更好地理解这些人工智能如何工作，以及它们可能如何影响我们的社会结构。

最后，我希望我的工作能够激励其他科学家继续探索这一领域，并最终创造出一个真正无缝与人类互动的人工智能时代。在未来，如果你遇到了任何困难或有任何疑问，都可以直接向我提出，或许我可以帮你找到解决方案。

标签：下载智能语音助手、人工智能专业课程有哪些、 ai人工智能技术、松下全屋智能家居、智能ai助手

上一篇：污水废水处理系统高效的污水处理设备与技术

下一篇：精确选择钢管规格型号尺寸大全指南

科学技术部发布达摩院大模型测试基准GPT-4勉强及格其他模型悉数落败

数码相机捕捉时光的数字印记

影视之美剖析电影艺术的深度

2023年智能手表大决战华为运动健康app下载谁能成为你心中的英雄

伦子小姐的时尚风格川内伦子的服饰文化探索

蜂鸟捕捉瞬间的经典人像摄影艺术