当前位置: 首页 - 科技 - 盘古问世千亿中文大模型专攻企业级应用科技小手工制作助力落地难题

盘古问世千亿中文大模型专攻企业级应用科技小手工制作助力落地难题

2024-12-26 科技 0

在科技小手工制作的热潮中,盘古问世,它是华为云与循环智能联合开发的一款中文大模型,拥有1100亿密集参数。这个模型旨在克服GPT-3落地难题,为企业级应用提供更好的服务。在HDC.Cloud大会上,由余承东发布,盘古NLP模型以其出色的性能,在最近的CLUE榜单上获得了第一名。

为了训练这个模型,研究团队花费了近半年的时间,将40TB的行业文本数据和超过400万小时的行业语音数据用于训练。这次刷榜,不仅证明了盘古在总榜、阅读理解排行榜和分类任务排行榜上的领先位置,也显示了它在解决实际问题方面的潜力。

然而,对于NLP从业者来说,这并不是一个简单的问题。GPT-3虽然强大,但在复杂商用场景中却存在不足之处。首先,它对于少样本学习能力较弱,这意味着当面对高质量数据紧缺、经济效益至上的产业界时,其语言理解能力就显得不够有效。此外,GPT-3还难以进行微调,以适应商业场景中的需求,并且它只能进行直接的端到端生成,而不能融入领域知识。

为了解决这些问题,循环智能通过两种方式提高少样本学习能力。一是利用迁移学习,使得元学习能够跨任务进行迁移,从而实现更好的少样本学习效果;二是在微调框架中融入P-tuning、priming等最新技术,以提升微调效果。

最终,这些努力都集中体现在盘古模型上。通过实测,我们可以看到,在相同条件下,盘古所需样本量远低于其他模型,即使是当年刚推出的中文版 GPT-3(CPM),也无法达到同样的效果。这不仅提高了生产效率,还使得企业级应用更加容易实现,让人工智能真正走进千家万户,为人们带来便利和价值。

标签: 科技技术科技股有哪些863计划和平精英科技软件免费下载山东省科技厅