当前位置: 首页 - 科技 - 中国科技排名前列的企业家瞄准GPT-3落地难题千亿中文大模型盘古问世专攻企业级应用

中国科技排名前列的企业家瞄准GPT-3落地难题千亿中文大模型盘古问世专攻企业级应用

2024-12-26 科技 0

在中国科技排名前列的企业家张倩瞄准GPT-3落地难题,千亿中文大模型盘古问世专攻企业级应用。随着中文预训练语言模型参数量上升至千亿,行业界定制化需求日益增长。NLP从业者可能注意到最近的中文NLP社区热闹非凡:各种大规模中文版预训练模型不断涌现,如“中文版T5”和“中文版GPT-3”,似乎要带领整个社区迈入“练大模型”时代。

在此背景下,作为行业标准的中文语言理解测评基准CLUE经历了GLUE曾经盛况:一个新冠军被迅速挤下宝座。最新的CLUE榜单上,“盘古”NLP模型夺得总榜、阅读理解及分类任务三项第一名,其总分比第二名高出百分之几十。

HDC.Cloud大会上,余承东宣布由华为云与循环智能联合开发的盘古NLP模块,这是首个拥有1100亿密集参数的大型中文字处理系统,由循环智能与华为云共同研发,并由鹏城实验室提供算力支持。该团队在近半年时间内,用40TB行业文本数据和超过400万小时语音数据进行了深度训练,以克服GPT-3落地难题。

杨植麟(循环智能联合创始人)向机器之心透露:“学术研究往往以通用化数据集作为基准,但这跟实际应用有出入。我们针对性解决这些问题,将商业化落地视角融入设计研发。”这种不同于传统方法的设计使得盘古能更好地适应复杂商用场景。

尽管GPT-3强大,但其缺乏少样本学习能力和微调友好性限制了其广泛使用。在复杂商用场景中,它对于少样本学习能力较弱,而且对微调不够灵活,这两点都是导致它无法直接有效运用于实际应用中的关键因素之一。此外,它还缺乏将领域知识融合进端到端生成过程的能力,这也是它面临的一个挑战。

为了克服这些问题,盘古采用元学习技术来提升少样本学习能力,并结合P-tuning等最新微调技术,从而显著提高了性能。在测试中,相比其他同类产品,如CNN、BERT、RoBERTa以及当前流行的一些中文字处理工具,在相同条件下的表现优越,无需大量样本即可达到高效率目标。这意味着通过使用盘古,可以实现生产力的显著提升,使得原本需要数周才能完成工作,现在只需几天就能完成,即实现了近10倍效率提升。

标签: 中国科技新闻网官方一二三年级科幻画简单科技新闻最新消息10条摘抄史上最难的科幻画小鹏