2025-02-23 智能 0
在机器之心专栏中,我们探讨了达摩院多语言NLP团队的最新进展。该团队发布了一套名为M3Exam的多语言多模态测试基准,这项工作旨在评估各种大模型的性能,尤其是在处理不同语言和多种数据类型时。
随着大型语言模型(LLMs)的发展,如何有效地评估这些模型变得越来越重要。传统方法如使用人类设计的问题来测试模型已经被证明是有用的,但对于跨语言和跨模态的大型模型来说,这种方法尚未得到充分应用。因此,达摩院团队推出了M3Exam,以填补这一空白。
M3Exam具有三个关键特性:它支持九种不同的语言、同时包含文本和图片问题,并且覆盖了三个教育阶段的小升初、初升高、高考。这使得我们能够比较不同层次的考试题目对模型表现的影响。
通过对多个开源和闭源LLMs进行测试,我们发现大部分模型都无法达到50%的正确率,即使它们拥有相似的参数量。此外,我们注意到即便是包括图像信息在内的大型LLMs,也未能显著提高其性能。这表明现有的多模态数据可能过于简单,而人类考题则需要更深入地理解图像内容。
这个发现提醒我们,在评价LLMs能力时,应该更加关注它们在基础任务上的表现,而不是仅仅依赖复杂数据集。此外,由于目前的大型LLMs仍然难以解决基础问题,其实际应用可能存在局限性。
总结来说,M3Exam为评估跨语言和跨模态的大型LLMs提供了一个可靠的框架。虽然当前结果显示这些模型在处理非英语或中文等其他少数语种时存在挑战,但这也激发了我们的进一步研究。未来,我们希望通过不断改进并扩展M3Exam,可以更全面地衡量各类大型LLMs,并最终将它们带入实用化阶段,为全球用户提供服务。