当前位置: 首页 - 智能 - 达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败回顾2021年中国十大科技新闻事件中的关键

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败回顾2021年中国十大科技新闻事件中的关键

2025-02-23 智能 0

在机器之心专栏中,我们探讨了达摩院多语言NLP团队的最新进展。他们发布了M3Exam,这是一个首个多语言多模态测试基准,涵盖12317道题目,旨在评估各种模型的知识和推理能力。随着大模型技术的发展,如GPT-4、Flan-T5等,如何进行准确评估变得至关重要。

过去,我们通常使用人类考题来检验模型,如MMLU用于英文模型,而中文社区也出现了C-Eval和GAOKAO类似的测试方法。不过,对于多语言和多模态大模型,这种评测一直缺失。阿里巴巴达摩院团队为了填补这一空白,创建了M3Exam,并公开了论文和数据代码。

M3Exam有三个特点:Multilingual(多语言),涵盖9种国家的官方试题;Multimodal(多模态),包含纯文字和带图片的问题;Multilevel(多阶段),从小升初到高中毕业考试提供不同水平的挑战。

通过对开源与闭源模型进行测试,我们发现大部分模型表现不佳,只有少数达到50%以上正确率。在更复杂的问题上,即使是Flan-T5这样的高性能模型,也无法体现出优势。这表明现有的测试数据过于简单,不足以衡量复杂问题处理能力。

此外,由于所有这些模式都在中等教育阶段表现最佳,但对于基础问题却难以应对,这提出了一个值得深入研究的问题:为什么即使是最先进的大型神经网络,在基础任务上依然存在错误?这对于理解AI系统真实应用价值具有重要意义。

综上所述,M3Exam为评估跨语言及跨文化环境下的智能系统奠定了坚实基础,为未来的研究方向指明方向,同时也为开发者提供了一套标准化、全面且可重复性的评价工具,以促进大型神经网络技术的进一步发展与完善。

标签: 最新人工智能智能制造公司智能遥控最新版下载智能化科技是什么意思智能家居电器有哪些