中国科普网达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败

2025-02-23 智能 0

在机器之心专栏中，达摩院多语言NLP团队与阿里巴巴合作，共同推出了M3Exam，这是首个针对多语言和多模态的大型测试基准。该测试基准涵盖了12317道题目，以评估不同模型的知识理解和推理能力。在此之前，虽然有C-Eval和GAOKAO这样的中文试题用于测试中文模型，但对于跨语言或结合图片信息的大型模型来说，没有相应的评测标准。

为了填补这一空白，达摩院团队设计了M3Exam，它具有三大特点：Multilingual（多语言）、Multimodal（多模态）以及Multilevel（多阶段）。这意味着它不仅包含来自不同国家的9种语言，而且包括纯文字和带图片的问题，并且从小升初、初升高、高中毕业等三个重要教育阶段获取官方考试题目，以便比较不同智力要求下的模型表现。

通过对开源及闭源模型进行测试，他们发现绝大部分模型都取得了很差的成绩，即使参数量相近的Flan-T5也未能超越50%正确率。这表明现有的简单问题可能不足以充分考验复杂数据处理能力，而人类考题往往需要更深入地理解图像内容。研究人员指出，如果想要提高AI在实际应用中的可靠性，我们应该更多关注它们在基础问题上的表现，而不是单纯追求难度较大的挑战。

总结来说，该文章介绍了一项名为M3Exam的新兴技术，它旨在为评价这些跨语境、融合视觉信息的大型神经网络提供一个公认的标准。此举不仅揭示了目前这些系统仍然面临重大挑战，也预示着未来随着技术进步，将会更加广泛地应用于全球范围内各类用户。

标签：智能家居系统多少钱一套、智能云系统、智能制造就业方向、华为智能遥控下载、人工智能的定义

上一篇：精细化工离心分离设备-高效分离技术的新纪元

下一篇：微波干燥设备高效节能的食品处理解决方案

中国科普网达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败

在使用风信子平台上我可以如何更有效地提高我的英语水平

手机不带红外线如何实现万能遥控技术革新解锁新时代智能生活

仪器仪表工程研究生就业前景分析优质技术人才市场需求与职业发展路径

工控机械传动设备科技助力工业生产

风铃草的英语翩翩起舞的绿意盎然