达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败何为论文人物探究新一代语言智能的挑战与机遇

2025-02-23 智能 0

在机器之心专栏中，达摩院多语言NLP团队发布了首个多语言多模态测试基准M3Exam，涵盖12317道题目。这项工作对于评估大模型的发展至关重要。例如，MMLU已经被广泛用于评估英文模型的表现，而中文社区也出现了C-Eval和GAOKAO等使用中文试题来测试模型的工具。然而，对于多语言/多模态大模型缺乏相应的评测标准，因此阿里巴巴达摩院推出了M3Exam，以促进此类评测的发展，并公开了论文和数据代码。

M3Exam具有三个特点：Multilingual（支持9种语言）、Multimodal（包含文字和图片问题）以及Multilevel（覆盖小升初、初升高、高中毕业三阶段）。通过对开源和闭源模型进行测试，我们发现大部分模型表现不佳，即使是参数量相似的Flan-T5模式，也没有体现出优势。

进一步分析，我们发现现有的多模态测试数据过于简单，而人类考题则要求更复杂地理解图片内容。在不同教育阶段的问题上，虽然基本所有模型在中等阶段表现最佳，但与人类能力相比仍有巨大的差距。这让我们意识到，不仅要不断用更困难的数据去测试模型，还需要研究为什么这些基础问题会让AI犯错，以便在实际生活中更可靠地使用它们。

总结来说，这篇文章介绍了新的测试基准M3Exam，其目标是在评价多语言/多模态大型神经网络时提供一个可靠标准。从当前结果看，在高资源语言如英文或中文方面，大型神经网络取得了一定成效，但在处理不同的母语时效果普遍不足。而且，由于目前的大型神经网络只能捕捉简单图像特征而不能捕捉精确细节，这也反映出这类技术尚需改进。此外，我们希望未来能够借助这个新标准帮助相关技术的迭代，使得这些强大的工具能为全球用户带来更多便利并扩展到更多应用场景。

标签：中国十大智能制造公司排名、智能建造专业坑不坑、 python人工智能、华为智能遥控下载、人工智能语音系统

上一篇：麦芒手机新贵虎贲芯片5000mAh电池仅699元省心又强悍

下一篇：我和我的管式反应器

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败何为论文人物探究新一代语言智能的挑战与机遇

深圳装修设计新趋势创意空间与智能家居的完美结合

CAD图纸设计与应用全解析从绘图基础到工程实践

德国LUBCON润滑器 QuattroMax 30组装灵活批发手机配件在哪里进货

男生卧室装修设计我是怎么让自己的小窝变得酷炫又舒服的

专利证书查询网安全注射器针头回缩力测试仪