当前位置: 首页 - 科技 - 盘古问世千亿中文大模型专攻企业级应用科技让人生更美好

盘古问世千亿中文大模型专攻企业级应用科技让人生更美好

2024-12-26 科技 0

在科技的不断进步中,一款名为「盘古」的新型中文预训练语言模型(PLM)最近在中国NLP社区引起了巨大的轰动。该模型由华为云和循环智能联合开发,其参数量达到了1100亿,成为业界首个千亿参数的中文大模型。这一技术突破不仅推动了中文自然语言处理(NLP)的发展,也为企业级应用提供了一种全新的解决方案。

「盘古」模型在最新发布的CLUE评测中取得了令人瞩目的成绩,在总榜、阅读理解排行榜和分类任务排行榜上均位列第一,并且其得分远超第二名,这些成果证明了它在处理复杂商用场景中的强大能力。

GPT-3虽然是一个学术界的产物,但其落地难题是众所周知的问题。比如,它对于复杂商用场景中的少样本学习能力较弱,这使得它在实际应用中效率低下。此外,它对微调不够友好,即便通过P-Tuning等方式进行优化,也无法达到90%以上的准确率,使得它只能局限于一些特定的使用场景,而不能成为一个领域专家。

为了克服这些问题,循环智能研发团队采用元学习来提高少样本学习能力,并将P-tuning、priming等最新技术融入到微调框架中,以进一步提升微调效果。实验结果显示,相比其他竞争者,如CNN、BERT系列和RoBERTa,以及现有的中文版GPT-3(CPM),「盘古」具有显著优势。在相同F1值的情况下,「盘古」所需数据量仅为CPM的一半,从而实现生产效率的大幅提升。

此外,由于GPT-3只能进行端到端生成,不易融入领域知识,因此「盘古」也从根本上解决了这一问题,将行业知识接入AI流水线,与通用AI能力相结合,以实现基于行业知识精确理解和预测。

总之,“盘古”以其创新性解决方案打破了一条通往NLP技术产业化最后一公里的大门,为人们带来了更加高效、可靠的服务,让科技造福人类生活变得更加真实可见。

标签: 科技与生活手抄报中国科协是什么级别的单位火箭发射原理外太空科教