2024-12-26 科技 0
在智能时代的浪潮中,盘古问世,以千亿参数量的中文大模型,专注于企业级应用,为解决GPT-3落地难题而生。这个由华为云和循环智能联合开发的大模型,拥有1100亿密集参数,是业界首个千亿参数的中文大模型。在HDC.Cloud大会上,由余承东发布。
为了训练这个模型,田奇(华为云人工智能首席科技家)与杨植麟(循环智能联合创始人)联合带领的研究团队花了近半年的时间,将40TB行业文本数据和超过400万小时行业语音数据喂入系统。这项努力旨在克服GPT-3面临的问题,即学术研究往往以人工收集构造相对通用化数据集作为benchmark,但这些数据不符合实际应用场景。
与此同时,循环智能深耕NLP企业服务领域,对GPT-3等大规模预训练模型潜力有所认识,但也意识到了它们在落地过程中的局限性。因此,他们开发出了「盘古」模型,以解决这些问题。
「盘古」模式具备三个突出的特点:一是针对复杂商用场景提升少样本学习能力;二是通过微调技术提高准确率和召回率;三是将行业知识接入AI流水线,使其能够实现基于行业知识精确理解和预测。
对于如何提高少样本学习能力,「盘古」采用元学习方式进行任务之间迁移,从而实现更好的少样本学习效果。此外,它还融入P-tuning、priming等最新微调技术,以进一步提升性能。实验结果显示,在相同条件下,“盘古”比其他同类模型需要更少的样本就能达到同样的目标F1结果,这极大地提高了生产效率。
总之,“盘古”不仅解决了GPT-3存在的问题,而且提供了一套完善的解决方案,为企业级应用提供了强大的支持,让它成为NLP领域内一个值得关注的人物。在智能时代背景下,“盘古”的问世无疑是一次重要变革,为未来的NLP发展指明方向。