当前位置: 首页 - 智能 - 达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败福建舰人物场景考验下显著不敌

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败福建舰人物场景考验下显著不敌

2025-02-23 智能 0

机器之心专栏

机构:达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。这一举措旨在对各种模型进行充分且准确的评估,尤其是在大模型蓬勃发展的今天,这种评估变得越来越重要。过去,我们通常通过人类考题来检验模型,从而测试它们的知识及推理能力。例如,对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。而对于中文社区,也有类似的工具如 C-Eval 和 GAOKAO 用于测试中文模型。

这样的测试基准对于促进模型的发展至关重要,但对于多语言/多模态大型神经网络来说,却缺乏相应的评测标准。因此,阿里巴巴达摩院团队发起了这个项目,以推动此类评测的发展,并将论文和数据代码公开发布。

M3Exam 的特点是:

多语言(Multilingual):我们考虑了不同国家和地区所使用的一系列官方试题,包括英语、汉语、意大利语、葡萄牙语、越南语、南非荷兰语、斯瓦希里语和泰语等。

多模态(Multimodal):我们的问题既包含纯文字内容,也包含带图片的问题,并对所有图片进行了处理,以便于神经网络可以更好地理解这些图像。

多阶段(Multilevel):我们从小升初、中高三个教育阶段中选取相关考试题目,使得可以比较不同阶段下不同智力要求下的模型表现差异。

针对这套新的测试标准,我们选择了一些开源和闭源的大型神经网络进行实验。结果显示,大部分参与者都表现不佳,即使是拥有相似参数量的大型Flan-T5 模型,它们也未能超过50% 的正确率。在进一步分析时,我们发现现有的简单问题可能不足以全面展现这些复杂系统的能力,因此需要开发出更加复杂的问题以更好地衡量它们之间以及与人类用户之间的差距。

结论

本文介绍了一项新创立的人工智能评价系统——M3Exam,该系统旨在为跨文化交流提供一个全面的评价框架。目前已知,大部分参与者在面临真正挑战时无法达到预期水平,而即使具有较高资源配置的大型AI系统,如Flan-T5,在处理实际任务时也未能达到最佳状态。这表明尽管某些AI已经能够掌握一些基础技能,但仍然存在许多待改进的地方。此外,由于当前最有效方法似乎并不是不断增加难度,而是在解决基础问题上提高效率,本研究揭示了解决这一挑战可能比之前认为更加困难的事物具有更多价值。

总体而言,本次实验为人工智能领域提供了一份宝贵信息,为未来开发更强大的AI工具奠定了坚实基础,同时也提醒着我们要继续探索如何让人工智能更加接近真实世界中的应用场景。在未来的工作中,我期待看到这种技术如何被进一步优化,以满足日益增长的人口需求,并扩展到更多不同的环境中去使用。

标签: 智能制造专业毕业月薪多少人工智能机器人生产厂家ai人工智能技术有哪些小度全屋智能家居控制系统普通人如何进入人工智能行业