2024-12-26 科技 0
盘古:中文大模型的商业化实践者
在科技资讯网站上,一篇文章引起了广泛关注。文章介绍了一款名为“盘古”的新型中文预训练语言模型,这款模型是由华为云和循环智能联合开发,拥有1100亿密集参数,是目前业界首个千亿参数的中文大模型。
据介绍,盘古模型在最近的CLUE(Chinese Language Understanding Evaluation)榜单上表现出色,在总榜、阅读理解排行榜和分类任务排行榜中都排名第一,其得分比第二名高出一个百分点。这一成果证明了盘古模型在处理中文文本数据方面的强大能力。
然而,原有的GPT-3(Generative Pre-trained Transformer 3)虽然在学术研究领域取得巨大的进展,但其落地应用却面临着诸多挑战。这些挑战包括少样本学习能力较弱、微调效果不佳以及缺乏将通用AI能力与行业知识相结合的能力,使得GPT-3难以直接发挥其潜力。
为了克服这些问题,循环智能团队致力于打造一个能够针对特定行业进行精确理解和预测的AI系统。这需要将行业知识库接入到AI流水线中,并通过增强智能方式提升销售或其他业务场景中的效率。
而盘古正是基于这一理念设计而来,它采用元学习技术来实现少样本学习,同时融入最新微调技术,如P-tuning和priming,以提高微调效果。实验结果显示,在相同条件下,盘古可以使用近10倍少量数据达到同样的准确率,这极大地提高了生产效率。
综上所述,盤古不仅解决了GPT-3落地难题,还推动了中文NLP社区向“练大モデル”时代迈进,为企业级应用提供了一种更加高效且专用的解决方案。