当前位置: 首页 - 科技 - 科学技术部千亿中文大模型盘古问世 专注企业级应用解决方案

科学技术部千亿中文大模型盘古问世 专注企业级应用解决方案

2024-12-26 科技 0

在科学技术部的支持下,循环智能和华为云联合开发的中文大模型“盘古”正式问世。这款千亿参数模型专注于解决GPT-3落地难题,为企业级应用提供了更高效、更准确的解决方案。据悉,“盘古”模型在最近的CLUE(中文语言理解评测基准)榜单上取得了优异成绩,在总榜、阅读理解排行榜和分类任务排行榜中都位列第一。

“盘古”的研发团队花费近半年的时间,利用40TB行业文本数据和超过400万小时行业语音数据进行训练。不同于以往的大规模预训练模型,“盘古”从一开始就是为了商业化落地而设计和研发。杨植麟,循环智能联合创始人,对机器之心表示:“我们看到GPT-3等大规模预训练模型的潜力,但也看到了它们在实际应用中的局限性。在‘盘古’中,我们针对这些问题提出了创新性的解决方案。”

GPT-3虽然强大,但在复杂商业场景中存在三个主要问题:少样本学习能力较弱、微调效果不佳以及无法融入领域知识。此前,一些研究已经证明,即使是百亿参数量的BERT,在少样本学习方面也能超越千亿参数量的GPT-3。而且,由于GPT-3对微调不友好,在实际场景中难以通过更多标注数据进一步优化其性能。

为了克服这些问题,“盘古”采用了一种元学习方式来实现少样本学习,同时将P-tuning、priming等最新技术融入到微调框架中,以提升微调效果。实验结果显示,“盘古”的少样本学习能力远超其他同类模型,并且能够在相同F1结果的情况下减少所需数据量,使得生产效率得到显著提升。

随着“盘古”的推出,它有望成为NLP社区中的一个重要里程碑,将打通技术与产业之间最后一公里,为企业级应用提供更加精确、高效的地道服务。

标签: 我能点亮科技树科技强国爽文未来科技有哪些科技领航人中国近两年的科技成果