亚马逊云科技发布大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

在本文中，我们将深入探讨阿里巴巴达摩院多语言 NLP 团队发布的首个多语言多模态测试基准 M3Exam，以及它对促进模型发展的重要作用。M3Exam 是一个全新的评测标准，旨在通过一系列人类考题来检验大模型的知识和推理能力。这项工作对于提升大模型在实际应用中的表现至关重要。

随着人工智能技术的不断进步，大型开源模型如 GPT-4 等得到了广泛关注。然而，如何有效地评估这些模型成效仍然是一个挑战。传统方法，如使用单一语言或主题上的试题，对于跨越不同文化和教育体系的大规模使用场景来说显然不足以满足需求。

M3Exam 的设计巧妙地结合了多种特性：Multilingual（支持9种国家语言）、Multimodal（包含图片信息）和Multilevel（涵盖三个教育阶段的小升初、初升高、高中毕业）。这种综合性的评测方案有助于全面了解大型机器学习模型在不同环境下的表现。

我们通过对各种开源和闭源模型进行测试，发现大部分模型都无法达到50%以上的正确率，这表明当前的大型机器学习模型尚未能够真正理解并处理复杂的问题。在某些情况下，即使是相似参数量的Flan-T5 模型也未能显示出优势，这进一步凸显了现有测试数据简单化的问题。

此外，本次研究还揭示了一点意想不到的事实：即使是较低教育阶段的问题，大部分模式也无法提供显著差异化性能，而是在中等教育水平问题上表现最佳。这可能意味着现有的难度设置不足以区分不同级别的大规模应用场景，并且可能需要更具挑战性的问题来衡量真实世界中的AI系统性能。

总结而言，本篇文章展示了新兴的M3Exam 多语言、多模态测试基准及其对提升AI系统性能方面的一系列贡献。尽管目前存在许多挑战，但我们相信这样的努力将为未来的人工智能发展奠定坚实基础，从而带动更多创新应用，为全球用户提供更加精确可靠的人工智能服务。

标签：人工智能包括哪些学科、生活中常用的智能产品、小米智能家居、全屋智能需要哪些东西、智能家居产品有哪些?