2024-12-26 科技 0
在技术与产业的交汇处,中文预训练语言模型迎来了新的里程碑——盘古问世。这款由华为云和循环智能联合开发的千亿参数中文大模型,不仅打破了GPT-3在落地难题上的局限,还以其卓越的性能,在CLUE榜单上一举夺冠。它是如何克服GPT-3面临的三个关键挑战,并成为行业内首个千亿参数中文大模型?
首先,盘古模型针对性地解决了少样本学习的问题。在复杂商用场景中,数据通常较少,而高质量数据又紧缺。为了应对这一挑战,盘古采用元学习技术进行迁移学习,从而实现更好的少样本学习效果。此外,它还融入P-tuning、priming等最新微调技术,以进一步提升微调效率。
其次,对于商业场景中的准确率和召回率要求极高。虽然P-Tuning等方法提出了针对GPT-3新型微调方式,但实际应用中仍然难以通过更多标注数据进一步优化GPT-3。盘古则通过将大量行业知识接入AI流水线,将通用AI能力与行业知识相结合,实现基于行业知识精确理解和预测。
最后,对于直接端到端生成而不能融入领域知识的问题,盘古采取了不同策略。在实时辅助场景中,它可以实时推送知识、讲解要点、推荐产品,以增强销售能力。而这种方式需要大量外部知识接入,这正是区别于GPT-3传统端到端生成方式的一大优势。
总结来说,盘古作为一个专注企业级应用的大型中文语言模型,其创新之处就在于克服了GPT-3在落地过程中的三大问题:少样本学习能力不足、微调效果不佳以及无法融入领域知识。此次成功发布,不仅证明了中国NLP研究团队在基础研究上的成果,也展示了一种更加适合产业需求的大规模预训练语言模型设计思路,为未来NLP技术的深耕发展奠定坚实基础。