2024-12-26 科技 0
在科技小手工制作的热潮中,盘古问世,它是华为云与循环智能联合开发的一款中文大模型,拥有1100亿密集参数。这个模型旨在克服GPT-3落地难题,为企业级应用提供更好的服务。在HDC.Cloud大会上,由余承东发布,盘古NLP模型以其出色的性能,在最近的CLUE榜单上获得了第一名。
为了训练这个模型,研究团队花费了近半年的时间,将40TB的行业文本数据和超过400万小时的行业语音数据用于训练。这次刷榜,不仅证明了盘古在总榜、阅读理解排行榜和分类任务排行榜上的领先位置,也显示了它在解决实际问题方面的潜力。
然而,对于NLP从业者来说,这并不是一个简单的问题。GPT-3虽然强大,但在复杂商用场景中却存在不足之处。首先,它对于少样本学习能力较弱,这意味着当面对高质量数据紧缺、经济效益至上的产业界时,其语言理解能力就显得不够有效。此外,GPT-3还难以进行微调,以适应商业场景中的需求,并且它只能进行直接的端到端生成,而不能融入领域知识。
为了解决这些问题,循环智能通过两种方式提高少样本学习能力。一是利用迁移学习,使得元学习能够跨任务进行迁移,从而实现更好的少样本学习效果;二是在微调框架中融入P-tuning、priming等最新技术,以提升微调效果。
最终,这些努力都集中体现在盘古模型上。通过实测,我们可以看到,在相同条件下,盘古所需样本量远低于其他模型,即使是当年刚推出的中文版 GPT-3(CPM),也无法达到同样的效果。这不仅提高了生产效率,还使得企业级应用更加容易实现,让人工智能真正走进千家万户,为人们带来便利和价值。