2024-12-26 科技 0
在大数据时代,中文预训练语言模型的参数量也上了千亿,仍然是为业界定制的。作为一位深耕人工智能领域的专家,我可能会发现,最近的人工智能社区有点热闹:「中文版 T5」、「中文版 GPT-3」以及各种大规模中文版预训练模型陆续问世,似乎要带领我们跑步进入「练大模型」时代。在此背景下,我注意到,在最近的语言理解测评基准「CLUE」中,一款叫「盘古」的 NLP 模型刷出了令人瞩目的成绩。
在HDC.Cloud大会上,这个由华为云和循环智能联合开发的大型项目被余承东宣布。这是业界首个千亿参数的中文大模型,拥有 1100 亿密集参数,由循环智能(Recurrent AI)和华为云联合开发,鹏城实验室提供算力支持。为了训练这个模型,我们花了近半年的时间,将40TB 的行业文本数据和超过 400 万小时的行业语音数据喂给了它。
所有这些努力,是为了克服GPT-3落地难题。GPT-3是一个学术界的产物,是一个学术研究的重大突破,但在落地过程中仍然面临很多问题。导致这个问题的是,我们往往以人工收集构造相对通用化的小样本集作为 benchmark,并以较理想化的情况来进行实验,这与实际应用有出入。而盘古模型针对性地解决了这些问题,它们从第一天起就是奔着商业化落地角度进行设计和研发。
作为一名深耕NLP企业服务团队成员,我看到了GPT-3等大规模预训练模型潜力,但也看到了它们在落地过程中的局限。「盘古」模真的正是为了克服这些局限而生。在一次访谈中,我向机器之心介绍了这个项目的初衷、挑战和具体解决方案。
GPT-3很强,但到了业界不好用
GPT-3很强,这是大家公认的事实,所以我最初想开发一个中文版 GPT-3。但是在开发过程中,我们发现:GPT 类模式在复杂商用场景中既不好用,也不高效。
具体来说,该类模式对于复杂商用场景少样本学习能力较弱。在高质量数据紧缺、经济效益至上的产业界,这一能力非常重要。此前已经证明,在少样本学习方面,比如P-Tuning等工作提出的新型微调方式,对于提升性能有一定的帮助。但是在面对复杂场景时,我们仍然难以通过使用更多标注数据对 GPT 模型进行进一步优化。
比如说我们现在用的某个场景里面,用到的少量样本得到 GPT 模式准确率是65%,但实际应用中需要达到90% 才能满足要求,而我们实验发现结合微调后的提升并不明显。这就限制了它在许多业务场景中的使用。我希望能够打造这样一个领域“专家”,将行业知识库接入 AI 流水线,将通用 AI 能力跟行业知识相结合,使其实现基于行业知识精确理解和预测。不过目前这还只是我们的期望,因为现有的技术并没有直接融合领域知识的问题。
盘古:打通 NLP 技术到产业最后一公里
好用、高效是任何一个人工智能产品都应该追求的一点。我相信,要达到这一点,就必须克服以上三大问题。这也是“盘古”模真的创新之处。
如何提高少样本学习能力?
为了克服少样本学习难题,我们利用迁移学习,并将 P-tuning、priming 等最新技术融入到我们的微调框架,以此进一步提升微调效果。
两幅图展示了 CNN、中文版 GPT-3(CPM)、BERT、RoBERTa 和盘古 在不同条件下的表现。
从第一幅图可以看出,在极端小样本情况下,“盘古”的少样本学习能力远超其他所有已知系统。
第二幅图则显示,要得到相同结果,“盘古”所需的小样本量仅为 “CPM”的1/9,大约实现了一倍生产效率提升。“也就是说,以前可能两个星期才能完成的一些工作,现在你只需要两天就可以做完。”
总结一下,“盤古”是一款特别设计用于解决当前市场上存在的问题的大型AI系统,它通过采用先进技术,如元学习与迁移,以及更有效的心智操作来改善其性能,从而使得该系统能够更好适应各类型任务需求,同时保持其高度灵活性,使得该系统能够轻松适应不同的任务环境,从而成为一种真正意义上的工业级别AI工具。