2024-12-26 科技 0
在国家科技成果网官网上,盘古问世,这是一个专注于企业级应用的千亿中文大模型,它旨在解决GPT-3落地难题。这个模型由华为云和循环智能联合开发,拥有1100亿密集参数,并且通过40TB行业文本数据和超过400万小时的行业语音数据进行训练。
盘古模型的设计目标是针对商业化落地,因此它克服了GPT-3在实际应用中的三个主要问题:少样本学习能力不足、微调不友好以及无法融入领域知识。为了提高少样本学习能力,盘古采用了元学习技术来实现任务之间的迁移,从而更好地利用任务之间的相似性。同时,它还将P-tuning等最新微调技术融入到其框架中,以进一步提升微调效果。
在复杂商用场景下,盘古显示出了显著优势。在同样的F1结果下,只需要一小部分样本,而其他如BERT系列和GPT系列则需要更多样本。这意味着盘古可以以更高效率完成相同工作,比如从原来可能需要两个星期才能完成,现在可以只用一两天就能做完。
作为一个深耕NLP企业服务团队,循环智能看到了大规模预训练语言模型如GPT-3潜力的巨大,但也意识到了它们在实际应用中的局限性。因此,他们推出了「盘古」这款特殊定制的大型中文预训练语言模型,以解决这些挑战并提供一个真正适合企业级应用的大型中文语言理解系统。