2025-02-23 智能 0
机器之心专栏
机构:达摩院多语言NLP
阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。
随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。
这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模式
上一篇:不锈钢多少钱一斤回收咱们来看看