2024-12-26 科技 0
在科技的不断进步中,一款名为「盘古」的新型中文预训练语言模型(PLM)最近在中国NLP社区引起了巨大的轰动。该模型由华为云和循环智能联合开发,其参数量达到了1100亿,成为业界首个千亿参数的中文大模型。这一技术突破不仅推动了中文自然语言处理(NLP)的发展,也为企业级应用提供了一种全新的解决方案。
「盘古」模型在最新发布的CLUE评测中取得了令人瞩目的成绩,在总榜、阅读理解排行榜和分类任务排行榜上均位列第一,并且其得分远超第二名,这些成果证明了它在处理复杂商用场景中的强大能力。
GPT-3虽然是一个学术界的产物,但其落地难题是众所周知的问题。比如,它对于复杂商用场景中的少样本学习能力较弱,这使得它在实际应用中效率低下。此外,它对微调不够友好,即便通过P-Tuning等方式进行优化,也无法达到90%以上的准确率,使得它只能局限于一些特定的使用场景,而不能成为一个领域专家。
为了克服这些问题,循环智能研发团队采用元学习来提高少样本学习能力,并将P-tuning、priming等最新技术融入到微调框架中,以进一步提升微调效果。实验结果显示,相比其他竞争者,如CNN、BERT系列和RoBERTa,以及现有的中文版GPT-3(CPM),「盘古」具有显著优势。在相同F1值的情况下,「盘古」所需数据量仅为CPM的一半,从而实现生产效率的大幅提升。
此外,由于GPT-3只能进行端到端生成,不易融入领域知识,因此「盘古」也从根本上解决了这一问题,将行业知识接入AI流水线,与通用AI能力相结合,以实现基于行业知识精确理解和预测。
总之,“盘古”以其创新性解决方案打破了一条通往NLP技术产业化最后一公里的大门,为人们带来了更加高效、可靠的服务,让科技造福人类生活变得更加真实可见。