当前位置: 首页 - 智能 - 达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败何为论文人物探究新一代语言智能的挑战与机遇

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败何为论文人物探究新一代语言智能的挑战与机遇

2025-02-23 智能 0

在机器之心专栏中,达摩院多语言NLP团队发布了首个多语言多模态测试基准M3Exam,涵盖12317道题目。这项工作对于评估大模型的发展至关重要。例如,MMLU已经被广泛用于评估英文模型的表现,而中文社区也出现了C-Eval和GAOKAO等使用中文试题来测试模型的工具。然而,对于多语言/多模态大模型缺乏相应的评测标准,因此阿里巴巴达摩院推出了M3Exam,以促进此类评测的发展,并公开了论文和数据代码。

M3Exam具有三个特点:Multilingual(支持9种语言)、Multimodal(包含文字和图片问题)以及Multilevel(覆盖小升初、初升高、高中毕业三阶段)。通过对开源和闭源模型进行测试,我们发现大部分模型表现不佳,即使是参数量相似的Flan-T5模式,也没有体现出优势。

进一步分析,我们发现现有的多模态测试数据过于简单,而人类考题则要求更复杂地理解图片内容。在不同教育阶段的问题上,虽然基本所有模型在中等阶段表现最佳,但与人类能力相比仍有巨大的差距。这让我们意识到,不仅要不断用更困难的数据去测试模型,还需要研究为什么这些基础问题会让AI犯错,以便在实际生活中更可靠地使用它们。

总结来说,这篇文章介绍了新的测试基准M3Exam,其目标是在评价多语言/多模态大型神经网络时提供一个可靠标准。从当前结果看,在高资源语言如英文或中文方面,大型神经网络取得了一定成效,但在处理不同的母语时效果普遍不足。而且,由于目前的大型神经网络只能捕捉简单图像特征而不能捕捉精确细节,这也反映出这类技术尚需改进。此外,我们希望未来能够借助这个新标准帮助相关技术的迭代,使得这些强大的工具能为全球用户带来更多便利并扩展到更多应用场景。

标签: 中国十大智能制造公司排名智能建造专业坑不坑python人工智能华为智能遥控下载人工智能语音系统