2024-12-26 科技 0
在技术的前沿,中文预训练语言模型正迎来新的里程碑。最近,一款名为「盘古」的 NLP 模型在业界引起了巨大的关注,它不仅拥有惊人的参数量,还特别针对企业级应用进行了优化。这个模型的问世,让人联想到了6年级一等奖科技手抄报中那种激动人心的创新成果。
「盘古」模型是由华为云和循环智能联合开发,拥有1100亿密集参数,是目前业界首个千亿参数的中文大模型。在HDC.Cloud大会上,由余承东发布,这标志着中文NLP社区迈向“练大模型”时代的一个重要步骤。
为了训练这个庞大的模型,研究团队花费了近半年的时间,用40TB行业文本数据和超过400万小时行业语音数据喂养它。这一切都是为了克服GPT-3落地难题。杨植麟表示:“学术研究往往以理想化的设定进行实验,但实际应用中存在很多问题。‘盘古’模型就是针对这些问题设计研发,以商业化落地为目标。”
GPT-3虽然强大,但在复杂商用场景中却存在三个主要的问题:少样本学习能力较弱、微调效果有限、以及融入领域知识能力不足。这限制了它在实际应用中的使用范围。而“盘古”则通过元学习提高少样本学习能力,并且采用P-tuning、priming等最新技术进行微调,从而解决了这三方面的问题。
两幅图表展示了不同NLP模式在复杂商用场景下的性能表现。“盘古”的表现尤其出色,在相同条件下,只需1/9数量的数据就能达到同样的F1结果,这意味着生产效率提升近10倍,为实时辅助销售等场景提供了强有力的支持。
总之,“盘古”是NLP技术到产业最后一公里的一次重大突破,它打造的是一个领域专家,而不是一个通用的百科全书式AI。此举不仅推动了中文NLP社区向更高层次发展,也为未来更多创新的道路开辟了一条路径。