2024-12-26 科技 0
在科技的语境中,一个新的篇章正在被写下。中文预训练语言模型,参数量已经达到了千亿,这是一个令人瞩目的数字,它不仅代表了技术的进步,也标志着工业界对这一领域的重视。对于从事自然语言处理(NLP)的专业人士来说,这个时刻尤为重要,因为似乎整个中文 NLP 社区都在向“大模型时代”迈进。
在这个背景下,一种名为“盘古”的NLP模型崭露头角。在最近发布的CLUE榜单上,“盘古”以其卓越的表现,在总榜、阅读理解和分类任务排行榜上占据了第一位,并且与第二名相比,其得分高出一百分点。这是由华为云和循环智能共同开发的一款拥有1100亿密集参数的大型中文语言模型,是业界首款达到此规模的中文大型语言模型。
为了训练这款如此庞大的模型,研究团队花费了近半年的时间,用40TB行业文本数据和超过400万小时行业语音数据进行喂养。这些努力都是为了克服GPT-3落地过程中的难题。“GPT-3是一项学术成就,但它面临着很多实际应用中的问题。”杨植麟表示,“我们发现,即使是最先进的大规模预训练模型,如BERT或GPT系列,他们也存在不足之处。”
这些不足之处包括少样本学习能力弱、微调困难以及缺乏领域专家的能力。在商业场景中,对于准确率和召回率要求非常高,而现有的解决方案无法满足这一需求。此外,尽管P-Tuning等方法提供了一些解决方案,但它们仍然局限于特定的场景。
为了克服这些挑战,盘古采用了一种元学习技术来实现跨任务之间的知识迁移,同时结合最新微调技术,如P-tuning和priming,以提高其性能。在少样本场景下的实验显示,盘古能够以极低数量的数据获得同样的效果,而传统模式则需要大量更多样化的情报。这意味着盘古可以在更短时间内完成相同工作,从而显著提升生产效率。
随着科技不断前行,我们期待看到这种创新将如何推动未来的人工智能应用,使其更加精准、高效,更贴近我们的生活需求。