当前位置: 首页 - 科技 - 第三次科技革命中盘古问世一款专为企业级应用设计的千亿中文大模型解决GPT-3落地难题

第三次科技革命中盘古问世一款专为企业级应用设计的千亿中文大模型解决GPT-3落地难题

2024-12-26 科技 0

在第三次科技革命的浪潮中,盘古模型问世,它是华为云与循环智能联合开发的一款专为企业级应用设计的千亿中文大模型。这款模型旨在解决GPT-3落地难题,为NLP从业者带来新的希望。随着中文预训练语言模型参数量的上升,盘古成为行业内首个千亿参数的大型中文模型。

在CLUE评测中,盘古不仅总榜、阅读理解排行榜和分类任务排行榜都拿了第一名,而且其得分高出第二名一个百分点,这无疑证明了它在中文自然语言处理领域的强大实力。在HDC.Cloud大会上,由余承东宣布发布,该模型是通过近半年的时间和40TB行业文本数据以及超过400万小时的行业语音数据进行训练。

对于GPT-3而言,它虽然是一项学术界巨大的突破,但实际应用中的挑战依旧存在。杨植麟指出,“GPT-3面临的问题主要体现在少样本学习能力不足,以及对微调不够友好。”这两点限制了其在复杂商业场景中的应用。

为了克服这些问题,循环智能团队致力于打造一个领域“专家”,将行业知识接入AI流水线,将通用AI能力与行业知识相结合,以实现基于行业知识精确理解和预测。陈虞君资深算法总监解释说:“我们希望通过增强智能提升销售能力,在实时辅助场景中提供更好的推荐效果。”

然而,现有的GPT-3无法直接融入领域知识,因为它只能进行端到端生成,而不能直接利用外部知识库。此外,对于商业场景所需准确率和召回率要求很高,但现有技术难以通过更多标注数据进一步优化这个问题。

为了解决这些问题,盘古采用元学习技术进行迁移学习,并将P-tuning、priming等最新技术融入微调框架,从而显著提高微调效果。实验结果显示,在同样的F1结果下,盘古所需样本量远低于其他竞争对手,即使是在极少样本的情况下也能保持良好的性能,这意味着生产效率得到显著提升。

综上所述,盘古作为一款针对企业级应用设计的大型中文预训练语言模型,不仅解决了GPT-3落地难题,还推动了NLP社区向“练大模型”时代迈进,为产业提供了一种更加有效、高效且能够满足复杂商用场景需求的解决方案。

标签: 科技手抄报模板能打印科技的重要性国家科技成果登记网实用新型专利科技名言名句优美句子