达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败在科技画中绘制人物情景

2025-02-23 智能 0

在机器之心的专栏中，达摩院多语言自然语言处理团队推出了一个名为M3Exam的多语言多模态测试基准，这个基准涵盖了12317道题目，旨在评估各种大型模型的性能。随着开源大模型的不断出现，对这些模型进行有效评估变得越来越重要，其中一种方法是使用人类考题来测试模型的知识和推理能力，就像MMLU对英文模型表现有广泛应用一样。

然而，对于支持多种语言和模态的大型模型来说，缺乏相应的评测标准。为了解决这个问题，阿里巴巴达摩院发布了首个多语言多模态测试基准M3Exam，以促进这一领域的发展，并且论文和数据代码已经公开。

M3Exam具有三个特点：它支持多种语言，如英文、中文、意大利语等；同时考虑到纯文字和带图片的问题，并确保所有图片都经过处理；最后，它包含了来自不同教育阶段的小升初、中升高、高中毕业考试题目，使得可以比较不同智力要求下模型表现差异。

通过选取不同的开源和闭源模型进行测试，我们发现大部分模型表现不佳，没有超过50%正确率。大部分单词量参数相似的Flan-T5没有体现出优势，即使它们没有将图片作为输入。进一步分析显示可能是因为现有的测试数据过于简单，而人类考题需要更复杂地理解图片内容。

此外，我们注意到尽管从低级教育阶段到高级阶段，大部分模式效果并未显著下降，但却在中等水平的问题上表现最佳。这与我们期望的人类能够轻易解答基础问题形成鲜明对比，让人感到困惑。此外，由于目前难以通过更困难的问题来全面衡量各自模式之间差异，我们认为研究为什么模式会犯错可能更有价值，因为这对于实际生活中的AI教育应用至关重要。

总结起来，本文介绍了新创建的M3Exam用于评价支持多种语言及模态的大型模式性能的一个可靠基准。在当前的情况下，大部分模式在面对非母语环境时表现在很差，而其它方面则存在更多挑战。本计划希望未来能帮助相关项目迭代，从而为所有国家用户提供更加丰富功能以及场景。

标签：开智能家居店前景好吗、人工智能机器人哪里有卖、智能家居的市场、全屋智能有必要做吗、智能遥控器怎么连接电视

上一篇：怎样检测水质好坏我来告诉你这些小技巧

下一篇：自然资源-磷矿石的宝藏与挑战如何高效开采

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败在科技画中绘制人物情景

七夕自然风情下的爱意与甜蜜考啦烤箱助你轻松创造美味让厨卫加盟代理投资回报丰厚

摄影技巧-索尼A7R2拍摄艺术的无限可能

镜头之心尼康D300S的诗篇

智能手表的价格从几百到大几千真的是天壤之别吗探索可穿戴设备的双刃剑好处与坏处

欧洲风情下的肖像画探索传统摄影艺术的深度