达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败科技与未来绘画图片中人物场景显现智能争霸

2025-02-23 智能 0

在机器之心专栏中，达摩院多语言NLP团队与阿里巴巴合作，共同推出了M3Exam，这是首个针对多语言和多模态的大型测试基准。该测试集包含12317道题目，涵盖了9种不同国家的官方试题。M3Exam不仅支持纯文字问题，还包括带有图片的问题，并且设计成能够评估模型在三个教育阶段（小升初、初升高、高中毕业）的表现。

为了验证这些大型模型的能力，我们进行了一系列实验，结果显示绝大部分模型都无法达到50%的正确率，即使是同参数量级的Flan-T5模型，也未能展现出显著优势。此外，我们发现当前多模态测试数据相对简单，而人类考题往往需要更复杂的理解能力，因此我们认为，对于提升模型性能，更重要的是使用更具挑战性的数据集来训练和测试它们。

我们的研究还揭示了一个有趣的事实，那就是尽管从低到高教育阶段，大部分模型表现没有显著下降，但却在中等水平的问题上表现最佳。这表明即便面对基础知识的问题，大型AI也存在难以预料的情况，使得它们在实际应用中的可靠性仍然是一个值得探讨的话题。

总结来说，我们通过创建M3Exam这样的标准，为评价这类大型AI提供了一个可靠的手段。虽然目前这些AI在单一语言环境下的表现尚可，但其跨语言和跨媒体处理能力仍需改进。而我们希望这种新的测试标准能够促进相关技术的发展，为全球用户提供更加智能化服务。

标签：中国智能家装公司排行榜、人工智能三大应用领域、智能和智能化、对人工智能的认识和理解、日常人工智能有哪些

上一篇：110pe管材价格预测行业专家的见解

下一篇：苹果iPhone 7与google pixel并行自然选择售价4350元

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败科技与未来绘画图片中人物场景显现智能争霸

创新之风引领发展的步伐警惕AI产业潜伏的泡沫化风险专家呼吁共创未来不忘初心

3年级科技小制作手工展现6年级智能创新风尚GPT-4闪耀榜首330亿参数小羊驼开源之星

芯片解密公司领先的半导体技术研究与开发机构

人物广撒网探索论文之谜

主题-爽一点搔一点叫大声点解锁GIF中的快乐挑战