当前位置: 首页 - 科技 - 盘古问世瞄准GPT-3落地难题的千亿中文大模型专攻企业级应用引领科技潮流

盘古问世瞄准GPT-3落地难题的千亿中文大模型专攻企业级应用引领科技潮流

2024-12-26 科技 0

在技术的前沿,中文预训练语言模型正迎来一场革命。张倩,作为NLP领域的一名从业者,深刻感受到了这股热潮:“中文版T5”、“中文版GPT-3”以及众多大规模中文预训练模型的问世,让人仿佛置身于“练大模型”的新时代。

在这个背景下,中文语言理解测评基准“CLUE”也展现出其活力:一个新的冠军诞生,就被一个更新更强大的模型超越。这一次,是名为“盘古”的NLP模型抢占了王座。在最近的CLUE榜单上,“盘古”不仅在总榜和阅读理解排行榜中夺得第一,而且在分类任务排行榜上同样领先,其总分甚至高出第二名超过百分点。

就在HDC.Cloud大会上,余承东宣布华为云与循环智能共同开发的盘古NLP模型,这是行业首个千亿参数的大型中文语言模型,由1100亿密集参数构成,并由鹏城实验室提供算力支持。为了培养这一神器,田奇(华为云的人工智能首席科技官)与杨植麟(循环智能联合创始人)联手带领团队投入近半年时间,将40TB行业文本数据和400万小时语音数据喂养给它。

所有这些努力旨在解决GPT-3落地难题。“GPT-3是一项学术研究成果,是对人类知识的一次重大突破,但其落地过程仍然面临着许多挑战。”杨植麟向机器之心透露,“这些挑战包括少样本学习能力不足、微调效果不佳以及缺乏针对特定行业知识库的结合。”而盘古则专门针对这些问题进行设计研发,以确保其能真正服务于企业级应用。

作为深耕NLP企业服务团队之一,循环智能看到了GPT-3等大型预训练语言模型的潜力,却也清晰认识到它们落地中的局限性。因此,他们推出了“盘古”,这是为了克服这些局限而生的项目。在一次访谈中,循环智能NLP Moonshot团队详细介绍了该项目背后的初衷、面临的问题及解决方案。

尽管GPT-3极具强度,但对于复杂商用场景来说,它既不好用也不够高效。具体来说,这三个方面都是问题所在:

少样本学习能力弱:虽然Schick和Schutze证明了BERT比GPT-3具有更好的少样本学习能力,但实际应用中,这种差距却显得尤为重要。

微调效果有限:即便P-Tuning等工作提出了针对GPT-3新型微调方法,在复杂场景下提升并不明显。

缺乏领域专家功能:由于只能生成端到端文字,而无法融合领域知识,因此难以实现基于行业知识精确理解和预测。

然而,“盘古”通过迁移学习技术提高了少样本学习能力,并将P-tuning、priming等最新技术融入微调框架,使得它能够有效应对以上三大问题。在测试结果显示,在相同条件下,“盘古”的F1成绩远超其他竞争者,即使是在极少量数据的情况下,也能达到意想不到的效果。此外,它还实现了一倍至十倍生产效率提升,对于商业环境中的快速响应需求无疑是一个巨大的优势。

标签: 中国版权保护中心最近的科技新闻大事科技创新筑梦未来论文科技之锤中核集团