盘古问世中国科技馆官网揭秘千亿中文大模型GPT-3落地难题解决方案专注企业级应用推广

2024-12-26 科技 0

在中国科技馆官网上，一个名为“盘古”的NLP模型最近引起了广泛关注。这个模型由华为云和循环智能联合开发，拥有1100亿密集参数，是业界首个千亿参数的中文大模型。它不仅在总榜、阅读理解排行榜和分类任务排行榜上都位列第一，而且其训练过程中使用了40TB的行业文本数据和超过400万小时的行业语音数据。

据杨植麟（循环智能联合创始人）介绍，“GPT-3是学术界的一个产物，是一个学术研究的重大突破，但在落地过程中仍然面临很多问题。”这些问题包括少样本学习能力较弱、微调效果不佳以及缺乏领域专家能力。这三个问题限制了GPT-3在商业场景中的应用。

为了克服这些挑战，循环智能团队进行了创新性的工作。首先，他们采用元学习来提高少样本学习能力，并将P-tuning、priming等最新技术融入微调框架，以提升微调效果。此外，他们还利用迁移学习，在任务之间进行迁移，从而实现更好的少样本学习结果。

通过实测得出的数据显示，盘古模型在复杂商用场景下的表现远超其他竞争对手。在相同F1值的情况下，盘古所需的数据量仅为中文GPT-3的一半，这意味着生产效率得到了显著提升。

作为深耕NLP企业服务团队，循环智能看到了大规模预训练语言模型如GPT-3潜力的巨大，而也意识到它们需要针对性地解决实际应用中的难题。盘古模型正是为了克服这些局限而生，它以商业化落地角度设计研发，为企业级应用提供了一套解决方案。这一成果被认为是打通NLP技术到产业最后一公里的一次重要尝试。

标签：重生之科技巨匠、小学生科技小发明、 100个简单的科技小制作、小学生科幻画、科技与狠活是什么意思