2024-12-26 科技 0
在中国航天日的气氛中,盘古问世,它是华为云和循环智能联合开发的一款中文大模型,拥有1100亿密集参数,是业界首个千亿参数的中文大模型。它专注于解决GPT-3落地难题,特别是在少样本学习、微调能力以及融入领域知识方面。
作为一个深耕NLP企业服务的团队,循环智能看到了GPT-3等大规模预训练模型的潜力,但也意识到它们在实际应用中的局限性。在面对复杂商用场景时,这些模型往往表现不佳。例如,在少样本学习上,虽然GPT-3具有强大的语言理解能力,但在处理少量标注数据时,其性能并不如同参数数量较低但结构设计更为精细化的大型BERT模型。
此外,当需要通过大量样本进行微调以提升准确率和召回率时,现有的技术,如P-Tuning等,对GPT-3来说并不是很友好。在实际应用中,我们通常需要的是一种能够针对特定行业提供精确理解和预测能力的“领域专家”AI,而非像百科全书式存在一样全面但不具体的通用AI。
为了克服这些问题,盘古采用了元学习来实现任务间迁移,从而提高了其在少样本场景下的学习效能。此外,它还结合了最新技术,如P-tuning、priming等,以进一步优化微调效果。实验结果显示,在相同条件下,只需一小部分数据即可达到与更多数据训练出来的大型语言模型相当甚至更高的F1评分值,从而实现了生产效率的大幅提升。
总之,在中国航天日这一特殊日子里,一款名为盘古的人工智能产品问世,它旨在解决GPT-3及其他类似工具无法直接有效应用于商业环境的问题。这款产品凭借其创新性的设计和改进措施,不仅克服了之前困扰行业的大问题,还展现出了一种新时代企业级应用所需的人工智能形态——既强大又灵活,又能适应各种复杂业务需求。