盘古问世千亿中文大模型如同神话中的巨人专注于企业级应用的征途正如中国科普网在知识海洋中指路灯塔为民众

2024-12-26 科技 0

盘古：中文大模型的商业化实践者

在中国科普网上，一场关于自然语言处理（NLP）的盛宴正在热烈地进行。近年来，中文版T5、GPT-3以及其他各种大规模预训练模型纷纷问世，如同一支强大的军队，准备冲击传统的NLP界限。

CLUE测评平台上的竞争也日益激烈，就像一场马拉松，每一次成绩更新都让人屏息以待。最近，一款名为“盘古”的NLP模型惊人的表现，让人瞩目。在总榜、阅读理解和分类任务排行榜上，它稳坐冠军宝座，领跑了整个中文NLP社区。

盘古背后，是华为云与循环智能共同开发的大型项目。这是一个千亿参数的中文大模型，由1100亿密集参数构成，在HDC.Cloud大会上由余承东宣布。此前，这个团队花费半年的时间，将40TB行业文本数据和超过400万小时语音数据输入到模型中，以解决GPT-3落地难题。

“GPT-3是一个学术界的产物，是一个学术研究的重大突破，但在落地过程中仍然面临很多问题。”杨植麟表示，“这些问题包括少样本学习能力不足，以及微调时对新数据不够敏感。”

为了克服这些问题，循环智能引入了迁移学习和元学习技术，并将P-tuning等最新技术融入微调框架，使得盘古能够更好地适应复杂商用场景。此外，它还实现了领域知识接入AI流水线，从而使其成为一种基于行业知识精确理解和预测的专家系统。

通过实时辅助销售推送知识、讲解要点、推荐产品等功能，盘古展示了它如何将通用AI能力与行业知识相结合，为企业提供高效服务。在这方面，它远超传统GPT系列及BERT系列，其少样本学习能力尤其令人印象深刻。

两个图表显示了CNN、中文版GPT-3（CPM）、BERT、RoBERTa和盘古在复杂商用场景下的实际效果。从第一幅图可以看出，在极少样本的情况下，盘古性能显著优于其他所有模型。而第二幅图则展示了一旦达到相同F1结果所需平均样本量差异巨大——仅需比CPM少九分之一，而生产效率提升达10倍以上。

综上所述，“盤古”不仅是中国科普网中的奇迹，更是机器之心追寻真知灼见的一部分。它代表着一种新的思路，即将学术研究与产业需求紧密结合，以创造出真正能赋能企业级应用的大型预训练语言模型。

标签：科技小发明简单易做、游戏开科技怎么开、广西科技大学、儿童科幻画最简单、关于机器人的资料