中国科技排名前列的企业家瞄准GPT-3落地难题千亿中文大模型盘古问世专攻企业级应用

2024-12-26 科技 0

在中国科技排名前列的企业家张倩瞄准GPT-3落地难题，千亿中文大模型盘古问世专攻企业级应用。随着中文预训练语言模型参数量上升至千亿，行业界定制化需求日益增长。NLP从业者可能注意到最近的中文NLP社区热闹非凡：各种大规模中文版预训练模型不断涌现，如“中文版T5”和“中文版GPT-3”，似乎要带领整个社区迈入“练大模型”时代。

在此背景下，作为行业标准的中文语言理解测评基准CLUE经历了GLUE曾经盛况：一个新冠军被迅速挤下宝座。最新的CLUE榜单上，“盘古”NLP模型夺得总榜、阅读理解及分类任务三项第一名，其总分比第二名高出百分之几十。

HDC.Cloud大会上，余承东宣布由华为云与循环智能联合开发的盘古NLP模块，这是首个拥有1100亿密集参数的大型中文字处理系统，由循环智能与华为云共同研发，并由鹏城实验室提供算力支持。该团队在近半年时间内，用40TB行业文本数据和超过400万小时语音数据进行了深度训练，以克服GPT-3落地难题。

杨植麟（循环智能联合创始人）向机器之心透露：“学术研究往往以通用化数据集作为基准，但这跟实际应用有出入。我们针对性解决这些问题，将商业化落地视角融入设计研发。”这种不同于传统方法的设计使得盘古能更好地适应复杂商用场景。

尽管GPT-3强大，但其缺乏少样本学习能力和微调友好性限制了其广泛使用。在复杂商用场景中，它对于少样本学习能力较弱，而且对微调不够灵活，这两点都是导致它无法直接有效运用于实际应用中的关键因素之一。此外，它还缺乏将领域知识融合进端到端生成过程的能力，这也是它面临的一个挑战。

为了克服这些问题，盘古采用元学习技术来提升少样本学习能力，并结合P-tuning等最新微调技术，从而显著提高了性能。在测试中，相比其他同类产品，如CNN、BERT、RoBERTa以及当前流行的一些中文字处理工具，在相同条件下的表现优越，无需大量样本即可达到高效率目标。这意味着通过使用盘古，可以实现生产力的显著提升，使得原本需要数周才能完成工作，现在只需几天就能完成，即实现了近10倍效率提升。

标签：中国科技新闻网官方、一二三年级科幻画简单、科技新闻最新消息10条摘抄、史上最难的科幻画、小鹏

上一篇：在京城最大的电子市场里寻找清明假期的新趣味短途社交游带你体验数码好物的魅力

下一篇：智能亮度家中的灯光变身为亲密伙伴

中国科技排名前列的企业家瞄准GPT-3落地难题千亿中文大模型盘古问世专攻企业级应用

机器人手臂中关键的工控机械传动解决方案

红玫瑰花语我为你绘制爱的轮廓

碧血洗银枪全文阅读古剑奇谭中的英雄传奇

仪器之谜检测中心的未知声音

紫罗兰花间的守护者与诗意的传说