当前位置: 首页 - 智能 - 达摩院发布教育科技大模型测试基准GPT-4勉强通过其他模型悉数未能及格

达摩院发布教育科技大模型测试基准GPT-4勉强通过其他模型悉数未能及格

2025-02-23 智能 0

机器之心专栏

机构:达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。

随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,我作为阿里巴巴达摩院多语言 NLP 团队的一员,在深入研究后,我们决定发表了首个多语言多模态测试基准 M3Exam,以推动此类评测的发展,并将论文和数据代码公开:

正如名字所示,M3Exam 有三个特征:

Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等因素挑选了9个国家对应的大型数据集,这些问题均来自于对应国家教育体系中的官方考试。

Multimodal 多模态:我们同时考虑纯文字以及带图片的问题,并且认真处理所有图片以便于更好地训练和评价我们的系统。

Multilevel 多阶段:我们从小升初、初升高、高中毕业这三个关键教育阶段获取问题,使得可以比较不同智力要求下不同阶段的问题与答案。

我选择了各式各样的开源、闭源大型预训练基础架构(PBBs)进行它们在面向全球学生学习材料上表现出色的实验性验证。这包括但不限于 GPT-4 和 Flan-T5 等其他先进的人工智能技术。

结果显示,大部分参与者都未能达到50% 的正确率,即使这些已经经过严格培训和优化以适应跨语种环境的大型预训练基础架构也不例外。此外,他们在图像识别任务上似乎缺乏有效性的普遍存在。

进一步分析发现,对于这些基于人工设计的问题,它们往往涉及到更复杂或微观细节级别理解,而不是简单提问。在实际应用中,这可能意味着即使最先进的人工智能系统也难以提供精确或有用的信息。

我注意到的是,不同类型的问题不会导致性能显著下降,但每个人工智能都能轻易解决的小学水平问题却给他们带来了最大困难。这让我思考,如果要真正衡量人工智能在具体任务中的潜力,我们可能需要更多地关注基本技能而非更加复杂和创新的挑战。

总结来说,本文介绍了一项全新的工具用于评估具有跨语种能力的人工智能系统。我通过使用这个工具找到了关于目前这种类型AI的一个新见解,那就是即使最新的人工智能技术也是无法很好地解决简单任务时期学习材料的问题。因此,无论是在开发过程还是最终部署中,都应该强调让AI能够完成它应该做的事情——提供基本服务,而不是仅仅追求极致性能或创新功能。如果AI能够胜任基础工作,那么它就为用户提供了一份宝贵财富,即自动化帮助提高效率,让人们集中精力做那些真正需要人的工作。本次项目成果不仅展示了一个可行性的平台,也激励我们继续探索改善这一领域并提升整体效果的事业道路。而这正是我作为团队一员不断努力追求目标的一部分,同时也代表未来技术前沿不可避免接触到的挑战之一。我期待这个平台能够成为所有人使用AI实现共同目标的一块桥梁,为不同的世界人民带去更多便利与希望。

标签: 智能制造就业岗位人工智能ai系统华为小鹏互怼 谁没搞懂智能驾驶智能家居有些什么产品黑科技产品