科技处官网发布达摩院大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

在科技处官网上，达摩院多语言NLP团队发布了首个多语言多模态测试基准M3Exam，涵盖12317道题目。这项工作对于评估大模型尤为重要，因为随着各种开源大模型的出现，如何对它们进行充分且准确的评估变得越来越关键。人类考题已被广泛采用来检验模型的知识及推理能力，如MMLU用于评估英文模型，以及C-Eval和GAOKAO用于中文社区。

然而，对于多语言/多模态大型机器学习系统，这类评测一直缺失。因此，阿里巴巴达摩院多语言NLP团队开发了M3Exam，以促进此类评测的发展，并将论文和数据代码公开。

M3Exam具有三个特点：Multilingual（支持9种国家语言），Multimodal（包含纯文字和带图片的问题），以及Multilevel（从小升初到高中毕业考试提供问题）。

通过使用开源、闭源等不同类型的大型机器学习系统进行测试，我们发现大部分模型表现不佳，大部分没有超过50%的准确率，即使与相似参数量的大型Flan-T5模型相比，也未能体现出优势。

进一步分析，我们发现可能是因为目前存在的问题数据简单，而人类考题需要对图片理解更复杂。结果显示，无论是在较低还是较高教育阶段，大部分模式都表现出色，但在中等阶段表现最佳，这与我们期望的人类性能有所不同。

这项研究揭示了使用更困难数据集并不能最大限度地衡量模型差异。如果想要可靠地在实际生活中应用这些工具，比如AI教育，我们应该研究为什么这些模式会在基础问题上犯错而不是仅仅依赖于它们在复杂任务上的性能。

最后，本文介绍了新创建的测试基准M3Exam，其目标是为评价这种类型的大型机器学习系统提供一个可靠的标准。根据当前测试结果，不少模式已经能够取得还算不错的地面效果，但在多语言环境下绝大部分模式仍然存在显著差距。此外，尽管现代技术可以捕捉简单特征，但无法捕捉更精细的情景细节。我们期待未来通过这样的标准，可以帮助相关技术迭代，从而将其便利带给所有人群，并拓展更多用途场景。

标签：智能家具包括哪些、智能家居装修需要多少钱、生活中常见的智能终端设备、 uiot智能家居官网、家电智能化控制系统

上一篇：离心风机型号及参数详细介绍

下一篇：天空的重压揭秘大气层的奥秘

科技处官网发布达摩院大模型测试基准GPT-4勉强及格其他模型悉数落败

环境友好型精馏技术新兴趋势与未来的展望

物流设备的未来智能化与可持续发展的融合

王志文主演的经典电视剧5000mAh电池魅蓝 10正式发布仅699元起

烟囱之梦工业废气的蒸腾变革

灌装机械精准流体输送与包装的高效工作者