达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败回顾2021年中国十大科技新闻事件中的关键

2025-02-23 智能 0

在机器之心专栏中，我们探讨了达摩院多语言NLP团队的最新进展。他们发布了M3Exam，这是一个首个多语言多模态测试基准，涵盖12317道题目，旨在评估各种模型的知识和推理能力。随着大模型技术的发展，如GPT-4、Flan-T5等，如何进行准确评估变得至关重要。

过去，我们通常使用人类考题来检验模型，如MMLU用于英文模型，而中文社区也出现了C-Eval和GAOKAO类似的测试方法。不过，对于多语言和多模态大模型，这种评测一直缺失。阿里巴巴达摩院团队为了填补这一空白，创建了M3Exam，并公开了论文和数据代码。

M3Exam有三个特点：Multilingual（多语言），涵盖9种国家的官方试题；Multimodal（多模态），包含纯文字和带图片的问题；Multilevel（多阶段），从小升初到高中毕业考试提供不同水平的挑战。

通过对开源与闭源模型进行测试，我们发现大部分模型表现不佳，只有少数达到50%以上正确率。在更复杂的问题上，即使是Flan-T5这样的高性能模型，也无法体现出优势。这表明现有的测试数据过于简单，不足以衡量复杂问题处理能力。

此外，由于所有这些模式都在中等教育阶段表现最佳，但对于基础问题却难以应对，这提出了一个值得深入研究的问题：为什么即使是最先进的大型神经网络，在基础任务上依然存在错误？这对于理解AI系统真实应用价值具有重要意义。

综上所述，M3Exam为评估跨语言及跨文化环境下的智能系统奠定了坚实基础，为未来的研究方向指明方向，同时也为开发者提供了一套标准化、全面且可重复性的评价工具，以促进大型神经网络技术的进一步发展与完善。

标签：最新人工智能、智能制造公司、智能遥控最新版下载、智能化科技是什么意思、智能家居电器有哪些