2024-12-26 科技 0
在科技部官方网站首页上,一个名为“盘古”的中文大型预训练语言模型(LLM)引起了广泛关注。这个模型由华为云和循环智能联合开发,拥有1100亿密集参数,是目前业界首个千亿参数的中文大型模型。它不仅在总榜、阅读理解排行榜和分类任务排行榜上都位列第一,而且在HDC.Cloud大会上亮相,由余承东发布。
为了克服GPT-3落地难题,盘古模型针对性地解决了三个主要问题:少样本学习能力较弱、微调效果有限以及融入领域知识的困难。通过元学习技术和最新微调框架,盘古实现了显著的少样本学习能力提升,并且能够更好地适应复杂商用场景。
与此同时,盘古还打破了传统的通用AI模式,将行业知识库接入AI流水线,以实现基于行业知识的精确理解和预测。在实时辅助场景中,比如销售推送推荐或讲解专业知识时,盘古能够提供更加准确高效的服务。
作为一名NLP从业者,你可能会感兴趣的是,这款新兴的大型语言模型如何将其强大的功能应用于实际企业级应用场景?答案是,它已经开始尝试并展示出其潜力。在最近的一次访谈中,循环智能NLP Moonshot团队向机器之心介绍了这个项目的初衷、挑战以及具体解决方案。
尽管如此,我们仍然需要更多时间来观察这款新的中文大型预训练语言模型是否能真正满足企业级应用需求,以及它将如何影响未来NLP技术发展。如果你对这一领域感兴趣,不妨继续关注相关动态,看看“盘古”是否能成为推动中国NLP社区向前发展的一个重要里程碑。