科学技术部千亿中文大模型盘古问世专注企业级应用解决方案

2024-12-26 科技 0

在科学技术部的支持下，循环智能和华为云联合开发的中文大模型“盘古”正式问世。这款千亿参数模型专注于解决GPT-3落地难题，为企业级应用提供了更高效、更准确的解决方案。据悉，“盘古”模型在最近的CLUE（中文语言理解评测基准）榜单上取得了优异成绩，在总榜、阅读理解排行榜和分类任务排行榜中都位列第一。

“盘古”的研发团队花费近半年的时间，利用40TB行业文本数据和超过400万小时行业语音数据进行训练。不同于以往的大规模预训练模型，“盘古”从一开始就是为了商业化落地而设计和研发。杨植麟，循环智能联合创始人，对机器之心表示：“我们看到GPT-3等大规模预训练模型的潜力，但也看到了它们在实际应用中的局限性。在‘盘古’中，我们针对这些问题提出了创新性的解决方案。”

GPT-3虽然强大，但在复杂商业场景中存在三个主要问题：少样本学习能力较弱、微调效果不佳以及无法融入领域知识。此前，一些研究已经证明，即使是百亿参数量的BERT，在少样本学习方面也能超越千亿参数量的GPT-3。而且，由于GPT-3对微调不友好，在实际场景中难以通过更多标注数据进一步优化其性能。