盘古问世瞄准GPT-3落地难题的千亿中文大模型专攻企业级应用引领科技潮流

2024-12-26 科技 0

在技术的前沿，中文预训练语言模型正迎来一场革命。张倩，作为NLP领域的一名从业者，深刻感受到了这股热潮：“中文版T5”、“中文版GPT-3”以及众多大规模中文预训练模型的问世，让人仿佛置身于“练大模型”的新时代。

在这个背景下，中文语言理解测评基准“CLUE”也展现出其活力：一个新的冠军诞生，就被一个更新更强大的模型超越。这一次，是名为“盘古”的NLP模型抢占了王座。在最近的CLUE榜单上，“盘古”不仅在总榜和阅读理解排行榜中夺得第一，而且在分类任务排行榜上同样领先，其总分甚至高出第二名超过百分点。

就在HDC.Cloud大会上，余承东宣布华为云与循环智能共同开发的盘古NLP模型，这是行业首个千亿参数的大型中文语言模型，由1100亿密集参数构成，并由鹏城实验室提供算力支持。为了培养这一神器，田奇（华为云的人工智能首席科技官）与杨植麟（循环智能联合创始人）联手带领团队投入近半年时间，将40TB行业文本数据和400万小时语音数据喂养给它。

所有这些努力旨在解决GPT-3落地难题。“GPT-3是一项学术研究成果，是对人类知识的一次重大突破，但其落地过程仍然面临着许多挑战。”杨植麟向机器之心透露，“这些挑战包括少样本学习能力不足、微调效果不佳以及缺乏针对特定行业知识库的结合。”而盘古则专门针对这些问题进行设计研发，以确保其能真正服务于企业级应用。

作为深耕NLP企业服务团队之一，循环智能看到了GPT-3等大型预训练语言模型的潜力，却也清晰认识到它们落地中的局限性。因此，他们推出了“盘古”，这是为了克服这些局限而生的项目。在一次访谈中，循环智能NLP Moonshot团队详细介绍了该项目背后的初衷、面临的问题及解决方案。

尽管GPT-3极具强度，但对于复杂商用场景来说，它既不好用也不够高效。具体来说，这三个方面都是问题所在：

少样本学习能力弱：虽然Schick和Schutze证明了BERT比GPT-3具有更好的少样本学习能力，但实际应用中，这种差距却显得尤为重要。

微调效果有限：即便P-Tuning等工作提出了针对GPT-3新型微调方法，在复杂场景下提升并不明显。

缺乏领域专家功能：由于只能生成端到端文字，而无法融合领域知识，因此难以实现基于行业知识精确理解和预测。

然而，“盘古”通过迁移学习技术提高了少样本学习能力，并将P-tuning、priming等最新技术融入微调框架，使得它能够有效应对以上三大问题。在测试结果显示，在相同条件下，“盘古”的F1成绩远超其他竞争者，即使是在极少量数据的情况下，也能达到意想不到的效果。此外，它还实现了一倍至十倍生产效率提升，对于商业环境中的快速响应需求无疑是一个巨大的优势。

标签：中国版权保护中心、最近的科技新闻大事、科技创新筑梦未来论文、科技之锤、中核集团

上一篇：智能家居给你家添点科技魔法优缺点及建议

下一篇：梦幻西游手游这样过夏至才带感错过这些就太可惜了

盘古问世瞄准GPT-3落地难题的千亿中文大模型专攻企业级应用引领科技潮流

突发事件ChatGPT大规模封号注册功能陷入停滞创新发展的第一动力何去何从

周鸿祎王小川对话背后中国科技成果未来能否被GPT超越

智慧守护未来科技如何重塑我们的安全体验

科技股新纪元智能投资的未来趋势

微信一手机号两账号注册移动支付便捷大号寂静小号何为