达摩院发布大模型测试基准GPT-4勉强及格网络科技有限公司其他模型悉数落败

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

在过去的某个阳光明媚的下午，阿里巴巴达摩院多语言 NLP 团队坐在他们温馨的小会议室里，正是那个时候，他们决定开启一个新的篇章——推出首个多语言多模态测试基准 M3Exam。这个项目不仅代表了团队对技术革新的坚定信念，更是为了促进大模型发展而进行的一次历史性的尝试。

随着科技的飞速发展，大型语言模型（GPT-4）的发布让人瞩目的同时，也引发了一场关于如何评估这些巨无霸能力的热议。对于中文和其他非英语国家来说，这种问题尤为紧迫，因为它们缺乏有效评估工具。在这样的背景下，网络科技有限公司推出了MMLU，它成为了评估英文模型知识水平和推理能力的一个重要指标。而在中文领域，我们也看到了C-Eval、GAOKAO等工具，它们利用中国官方考试题目来检验中文模型表现。

然而，对于那些支持多种语言和处理图像数据的大型模型来说，却仍然没有合适的测试标准。于是，在2023年的春天，阿里巴巴达摩院决定填补这一空白，并且将其作为一项创新性工作展现给世界。这一切都始于一个简单的问题：我们是否有足够好的方法来衡量这类复杂系统？

M3Exam被设计为三重奏唱：Multilingual（跨语言）、Multimodal（跨模式）以及Multilevel（层次化）。它涵盖了来自九个国家的九种不同语系，以确保每一种文化背景都能得到充分考虑。此外，不同教育阶段，如小升初、中考、高考，都有其独特的问题组成，以此来测试不同智力要求下的性能。

当团队开始对各种开源和闭源大型语言模型进行测试时，他们发现结果令人震惊。大部分模型都未能达到50% 的正确率，只有一两个例外勉强及格，而Flan-T5这样的高级别竞争者甚至更无法胜任图片任务。

进一步分析后，他们意识到当前使用的数据可能过于简单，而人类考试通常需要更深入地理解图片内容。这一点从具体问题及其输出中得到了印证。一旦进入中等教育阶段，就算是在基础题目上，大部分模型似乎都能够取得最佳成绩，但实际上，这些答案远远不能满足真实生活中的需求。

最终，这一研究揭示了一个令人吃惊的事实，即虽然不断提供更加困难的问题可以提高挑战性，但这并不一定能最大限度地揭示各自智能差异。如果想要真正利用这些AI系统去改善我们的日常生活，比如通过AI辅助教学，那么研究为什么它们会在基础问题上犯错可能比提升难度更具价值。

总结而言，本文展示了新创立的M3Exam，以及它如何成为评价任何单一或混合类型的大型自然语言处理系统的一个可靠指南。目前看来，无论是在资源丰富的地球上的英语还是中国汉语，或是其他任何地方，一切大规模机器学习平台似乎还需努力才能真正实现全面服务所有人的梦想。而达摩院则继续致力于开发出能够满足全球用户需求的一流技术产品与解决方案，使人们享受更加便捷、丰富的人工智能体验。

标签：智能语音控制开关、人工智能介绍ppt 、中国最好的机器人公司、人工智能在日常生活中的应用、人工智能应用技术学什么

上一篇：铁轨上腾飞的梦想中国中车股票之谜

下一篇：工厂粉尘用什么吸尘器-高效清洁工地选择合适的工业级吸尘器

达摩院发布大模型测试基准GPT-4勉强及格网络科技有限公司其他模型悉数落败

现代家居装饰公司专业的室内设计与家具搭配

办公室空间的艺术如何选择合适的设计装修公司

75平米精致生活二室一厅装修效果图展示温馨舒适家居空间设计

成都装修设计公司我在成都找到了理想的装修伙伴

橡胶管软管规格的实验型三辊研磨机又是什么