盘古问世千亿中文大模型专攻企业级应用网络时代的新贵

2024-12-26 科技 0

在技术的前沿，中文预训练语言模型正迎来新的里程碑。最近，一款名为“盘古”的NLP模型在中文社区引起了广泛关注。这不仅因为它拥有惊人的参数量——达到了1100亿密集参数，而且还因为它专门针对企业级应用进行了设计和研发。

据了解，“盘古”是华为云和循环智能联合开发的一项项目。在HDC.Cloud大会上，余承东发布了这个模型，并宣布它是业界首个千亿参数的中文大模型。这种规模的模型对于提升语言理解能力至关重要，它能够处理复杂的商业场景，使得AI技术更加贴近实际应用。

为了训练这个庞大的模型，研究团队花费了近半年的时间给它喂养了40TB行业文本数据和超过400万小时的行业语音数据。这样的努力旨在克服GPT-3落地过程中的难题，比如少样本学习能力不足、微调效果不佳以及缺乏领域知识融合能力。

GPT-3虽然是一个学术界的大突破，但其商业化落地仍然面临挑战。“GPT-3很强，但到了业界不好用。”杨植麟说。他解释道，在复杂商用场景中，GPT类模型即不好用又不高效。这主要是由于它们在少样本学习方面表现不佳，以及无法有效利用大量标注数据进行微调，从而限制了其使用范围。

与此同时，“盘古”模特通过元学习实现少样本学习，同时结合P-tuning、priming等最新技术进行微调，以提高其适应性和精确度。实验结果显示，“盘古”在相同条件下能以更低成本完成任务，其生产效率甚至比传统方法快10倍，这使得AI技术走进了一步之遥于之前。

随着“盘古”的问世，我们有理由相信，它将带领我们迈入一个新时代，那是一个基于深度理解和精准预测的时代。在这个时代内，不仅需要强大的通用AI，还需要针对特定行业或领域设计出的专业型AI，如同“盘古”一样，这样的创新将极大地推动我们的产业革命，为我们提供更多可能性去探索未知。

标签：关于科技的资料、中国科技巨头、青少年科技创新大赛获奖作品、微信搜索、科技小制作大全最简单小学生