达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败在移动支付场景中考验人工智能能力

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam，共涵盖 12317 道题目。

随着大模型的发展，尤其是近来各种开源大模型的发布，如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型，从而可以测试模型的知识及推理能力。例如对于英文模型，MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的，最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型，特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用，然而对于多语言 / 多模态大模型，相应的评测依然是一片空白。由此，阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展。

正如名字所示，M3Exam 有三个特征：

Multilingual 多语言：我们综合考虑语言特点、资源高低、文化背景等因素，我们挑选了9个国家对应的大型数据集，这些数据集包括但不限于英文、中文、意大利语、葡萄牙语和其他少数民族语群体，以确保我们的考试能够覆盖全球不同地区和文化的人们。

Multimodal 多模态：除了文字问题外，我们还设计了一系列带图片的问题，以便更全面地考察候选人在理解文本与图像之间关系方面的情况，并处理这些图片以便候选人能有效地进行分析。

Multilevel 多阶段：我们根据不同的教育阶段（即小升初、中升高、高中毕业）创建了难度逐渐增加的问题库，使得我们能够比较不同阶段下各自所需智力水平时候选人的表现差异。

通过这套基于真实教育考试内容构建的大规模标准化考试系统，我们对众家名嘴长期积累精华后输出的小明确提出严格要求，小明仔细审视每一道问题，不仅要解答正确，还要展示出逻辑性和深度思考。在这个过程中，他发现自己竟然面临一个前所未有的挑战——跨过国界与文化差异去理解世界上所有地方都可能出现的问题。这不仅需要他拥有丰富知识储备，更需要他具备跨文化交流沟通能力，以及快速适应新环境的心理素质。

最后，小明意识到，要想真正掌握任何一种新的技能或知识，无论是在学习还是工作场景中，都必须不断地进行全面的练习，这样才能帮助自己提高解决复杂问题的手段，并且让自己的思维更加灵活。此外，他也认识到，在实际应用中，最关键的是不是单纯判断是否正确，而是应该如何在实际情况下应用这些知识，这才是最有价值的事情。他认为，每一次失败都是成长的一部分，因为它为他提供了解决方案和改进策略，为将来的成功打下坚实基础。而现在，让他的头脑里的信息系统得到最大限度发挥，就是通过参加这种类型的大规模标准化考试。

总结来说，此次使用 M3Exam 的实验结果显示，即使是那些具有较高参数量（比如 Flan-T5）的开放源代码或闭源大型神经网络，它们在这项任务中的性能并不令人满意。这意味着尽管某些大型神经网络已经能够完成一些复杂任务，但它们仍旧存在许多不足之处，比如不能很好地捕捉图像中的细节，或不能很好地理解涉及到更复杂推理过程的问题。此外，由于目前几乎所有用于训练这些神经网络的大型数据库都非常简单，所以当遇到更复杂或者包含更多元素的事物时，它们就无法正常工作，从而导致他们无法获得想要获取到的信息或做出合适决定。

因此，对于未来开发者来说，如果他们希望创造出能在现实生活条件下发挥作用的人工智能，他们应当努力开发新的技术方法以及更新现有的数据库，以便让人工智能系统能够处理更为困难和变幻莫测的情况。在这样做的时候，他们应该重点关注为什么当前的人工智能系统会犯错，以及它们如何才能从错误中学习并改善自身性能。这不仅有助于提升人们对机器能力的一个信任感，也有助于实现一个更加平等公正社会，其中人类和机器可以共同协作解决日益增长数量级别上的复杂性问题。

标签：家电智能控制系统、 ai人工智能写诗、智能遥控空调、人工智能技术简介、免费人工智能免费网址

上一篇：铁的颂歌一段铸铁的历史

下一篇：钢铁之城的秘密工匠成都不锈钢生产厂家传奇

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败在移动支付场景中考验人工智能能力

绿色建造高效运作一体式小型移动搅拌站解析

冰火双刃大型工业制冷设备厂家背后的温凉与寒霜

丰田卡罗拉两厢版来袭动感与科技并重年轻人的新宠

化工净制我是如何把那些乱七八糟的化学物质变成干净透明的液体的

化工药品包装材料安全环保的创新解决方案