当前位置: 首页 - 科技 - 盘古问世千亿中文大模型如同指南针引领企业级应用航向GPT-3虽有远见但落地难题犹如迷雾直到今日这颗智

盘古问世千亿中文大模型如同指南针引领企业级应用航向GPT-3虽有远见但落地难题犹如迷雾直到今日这颗智

2024-12-26 科技 0

盘古:中文大模型的商业落地之道

在中国科技馆官网上,新的希望悄然浮现——盘古,这个名为千亿参数的中文大模型,正以其独特的设计和研发,为解决GPT-3所面临的落地难题而备受瞩目。

这次,CLUE(中文语言理解评测基准)榜单上的冠军宝座被一个新贵取代——“盘古”,不仅在总榜、阅读理解排行榜和分类任务排行榜中位列第一,而且与第二名相比,其得分高出一百分点。这是由华为云和循环智能联合开发的大型NLP模型,它拥有1100亿密集参数,是目前行业首个实现这一规模的中文大模型。

为了训练这个巨大的神经网络,研究团队花费了近半年的时间,将40TB行业文本数据及超过400万小时行业语音数据喂入其中。这种努力旨在克服GPT-3面临的一系列问题。

杨植麟对机器之心表示:“学术界往往以人工收集构造的相对通用化数据集作为benchmark,但这些往往与实际应用有出入。我们针对性地解决了这些问题。跟以往的大规模预训练模型不同,盘古从第一天起就是奔着商业化落地角度进行设计和研发。”

但是在实际应用中,这些强大的AI能力并不能直接体现,因为它们缺乏适应复杂场景的能力。在少样本学习方面,即使是像GPT-3这样的千亿参数量也无法达到Bert级别;而且对于微调,不论使用P-Tuning等最新技术,都难以通过更多标注数据进一步优化,使得它在利用数据方面效率低下。

所以,在教育、保险等领域,对于AI来说,并不是越多越好,而是需要根据具体场景来定制服务。而且,由于GPT-3只能直接生成端到端内容,而不能融入领域知识,所以它很难直接用于实时辅助销售推送或推荐产品等场景。

为了打破这些限制,循环智能采用迁移学习技术来提高少样本学习能力,同时融合P-tuning、priming等最新微调技术,以提升性能。此外,他们还提供了一张图表展示了各类模型在复杂商用场景下的平均样本量,从中可以看出盘古显著超越其他竞争者,如CNN、BERT、RoBERTa以及中文版 GPT-3(CPM)。

因此,“盘古”成为了工业界首个成功将NLP技术深耕到产业最后一公里的大型项目,为企业级应用提供了全新的解决方案。

标签: 中国科技信息中国最权威的科技网站中国领先世界的九大科技成果超级科技工业江西科技学院