2024-12-26 科技 0
盘古:中文大模型的商业落地之道
在前沿科技2023年的大潮中,中文预训练语言模型的竞赛愈发激烈。最新一代的「盘古」模型,以其强大的少样本学习能力和高效微调性能,引领了企业级应用领域的新趋势。
「盘古」是由华为云与循环智能联合开发的一款千亿参数中文大模型。它不仅拥有1100亿密集参数,还通过40TB行业文本数据和超过400万小时行业语音数据进行了深度训练。这意味着「盘古」具备处理复杂商用场景所需的丰富知识库和实时理解能力。
面对GPT-3在落地过程中的三大问题——少样本学习能力较弱、微调效果有限、难以融入领域知识——「盘古」通过元学习技术提升了少样本学习能力,并且将P-tuning等最新技术融入微调框架,从而解决了这些问题。
实验结果显示,在相同条件下,「盘古」的F1得分远超GPT系列和BERT系列。此外,由于其高效的微调性能,使用者可以在短时间内完成原本需要数周才能完成的任务,这极大地提高了生产力效率。
作为一个专注于NLP企业服务团队,循环智能看到了GPT-3等大规模预训练模型潜力的巨大,但也认识到它们在实际应用中的局限性。在此背景下,“盘古”成为了克服这些局限性的创新解决方案,它打通了NLP技术到产业最后一公里,为企业提供了一种更为可靠、高效、精准的人工智能服务。