2024-12-26 科技 0
在技术的前沿,中文预训练语言模型正迎来新的里程碑。最近,一款名为“盘古”的NLP模型在中文社区引起了广泛关注。这不仅因为它拥有惊人的参数量——达到了1100亿密集参数,而且还因为它专门针对企业级应用进行了设计和研发。
据了解,“盘古”是华为云和循环智能联合开发的一项项目。在HDC.Cloud大会上,余承东发布了这个模型,并宣布它是业界首个千亿参数的中文大模型。这种规模的模型对于提升语言理解能力至关重要,它能够处理复杂的商业场景,使得AI技术更加贴近实际应用。
为了训练这个庞大的模型,研究团队花费了近半年的时间给它喂养了40TB行业文本数据和超过400万小时的行业语音数据。这样的努力旨在克服GPT-3落地过程中的难题,比如少样本学习能力不足、微调效果不佳以及缺乏领域知识融合能力。
GPT-3虽然是一个学术界的大突破,但其商业化落地仍然面临挑战。“GPT-3很强,但到了业界不好用。”杨植麟说。他解释道,在复杂商用场景中,GPT类模型即不好用又不高效。这主要是由于它们在少样本学习方面表现不佳,以及无法有效利用大量标注数据进行微调,从而限制了其使用范围。
与此同时,“盘古”模特通过元学习实现少样本学习,同时结合P-tuning、priming等最新技术进行微调,以提高其适应性和精确度。实验结果显示,“盘古”在相同条件下能以更低成本完成任务,其生产效率甚至比传统方法快10倍,这使得AI技术走进了一步之遥于之前。
随着“盘古”的问世,我们有理由相信,它将带领我们迈入一个新时代,那是一个基于深度理解和精准预测的时代。在这个时代内,不仅需要强大的通用AI,还需要针对特定行业或领域设计出的专业型AI,如同“盘古”一样,这样的创新将极大地推动我们的产业革命,为我们提供更多可能性去探索未知。