2024-12-26 科技 0
在中国科技馆官网上,一个名为“盘古”的NLP模型最近引起了广泛关注。这个模型由华为云和循环智能联合开发,拥有1100亿密集参数,是业界首个千亿参数的中文大模型。它不仅在总榜、阅读理解排行榜和分类任务排行榜上都位列第一,而且其训练过程中使用了40TB的行业文本数据和超过400万小时的行业语音数据。
据杨植麟(循环智能联合创始人)介绍,“GPT-3是学术界的一个产物,是一个学术研究的重大突破,但在落地过程中仍然面临很多问题。”这些问题包括少样本学习能力较弱、微调效果不佳以及缺乏领域专家能力。这三个问题限制了GPT-3在商业场景中的应用。
为了克服这些挑战,循环智能团队进行了创新性的工作。首先,他们采用元学习来提高少样本学习能力,并将P-tuning、priming等最新技术融入微调框架,以提升微调效果。此外,他们还利用迁移学习,在任务之间进行迁移,从而实现更好的少样本学习结果。
通过实测得出的数据显示,盘古模型在复杂商用场景下的表现远超其他竞争对手。在相同F1值的情况下,盘古所需的数据量仅为中文GPT-3的一半,这意味着生产效率得到了显著提升。
作为深耕NLP企业服务团队,循环智能看到了大规模预训练语言模型如GPT-3潜力的巨大,而也意识到它们需要针对性地解决实际应用中的难题。盘古模型正是为了克服这些局限而生,它以商业化落地角度设计研发,为企业级应用提供了一套解决方案。这一成果被认为是打通NLP技术到产业最后一公里的一次重要尝试。
下一篇:智能家装成本分析性价比如何计算