科技公司发布大模型测试基准GPT-4勉强及格其他模型悉数落败达摩院首席科学家表示我们希望这次测试能够

2025-02-23 智能 0

在机器之心专栏中，我们探讨了达摩院多语言NLP团队的最新进展。该团队发布了一套名为M3Exam的多语言多模态测试基准，这项工作旨在评估各种大模型的性能，尤其是在处理不同语言和多种数据类型时。

随着大型语言模型（LLMs）的发展，如何有效地评估这些模型变得越来越重要。传统方法如使用人类设计的问题来测试模型已经被证明是有用的，但对于跨语言和跨模态的大型模型来说，这种方法尚未得到充分应用。因此，达摩院团队推出了M3Exam，以填补这一空白。

M3Exam具有三个关键特性：它支持九种不同的语言、同时包含文本和图片问题，并且覆盖了三个教育阶段的小升初、初升高、高考。这使得我们能够比较不同层次的考试题目对模型表现的影响。

通过对多个开源和闭源LLMs进行测试，我们发现大部分模型都无法达到50%的正确率，即使它们拥有相似的参数量。此外，我们注意到即便是包括图像信息在内的大型LLMs，也未能显著提高其性能。这表明现有的多模态数据可能过于简单，而人类考题则需要更深入地理解图像内容。

这个发现提醒我们，在评价LLMs能力时，应该更加关注它们在基础任务上的表现，而不是仅仅依赖复杂数据集。此外，由于目前的大型LLMs仍然难以解决基础问题，其实际应用可能存在局限性。

总结来说，M3Exam为评估跨语言和跨模态的大型LLMs提供了一个可靠的框架。虽然当前结果显示这些模型在处理非英语或中文等其他少数语种时存在挑战，但这也激发了我们的进一步研究。未来，我们希望通过不断改进并扩展M3Exam，可以更全面地衡量各类大型LLMs，并最终将它们带入实用化阶段，为全球用户提供服务。

标签：测血压的智能手表、延华智能、手机上的智能遥控器怎么用、人工智能技术应用就业方向及前景、 ai是什么简称

上一篇：主题我来告诉你我们的净化水设备生产厂是如何做到让每一滴水都清澈见底的

下一篇：7个月了中国AI大模型仍未学会ChatGPT亚马逊云科技挑战

科技公司发布大模型测试基准GPT-4勉强及格其他模型悉数落败达摩院首席科学家表示我们希望这次测试能够

科学发展的奇迹李世民穿越成刘禅ChatGPT40惊人想象力作品

向日葵的花语代表永不言弃坚持和勇气的象征

仪器大师从新手到老手的笑话历程

我爱你就像这玫瑰花的花语

金剑雕翎中的古风奇幻与现代情感的交织