2025-01-22 科技 0
席卷全球的新风口,OpenAI去年发布了聊天机器人模型ChatGPT,它能够理解和生成人类语言,并在许多自然语言处理任务中表现出色。据统计,上线仅两个月,ChatGPT活跃用户已经超亿,打破了由TikTok创造的9个月实现亿级用户注册的纪录,引起了各行各业人们的强烈关注。
就连埃隆·马斯克也忍不住发推表示,ChatGPT厉害得吓人,我们距离危险而强大的AI不远了。当然,在一顿痛批ChatGPT之后,马斯克也准备亲自下场,成立研究实验室,开发ChatGPT的竞品。
类似于这项技术在国内也迅速成为资本市场关注、创业者纷纷入场的赛道。阿里、百度等互联网大厂,以及科大讯飞等语音类AI企业,以及众多创业者都希望乘着最新的风口迅速“起飞”。开发出“中国版”的ChatGPT俨然成了国内科技圈“All in”的方向。
然而,我们真的能迅速见到一个“中国版”版本吗?谁又能拔下头筹,成为这个细分赛道的领头羊呢?
这个众多大佬都挤进来“淘金”的赛道,一定不是简简单单就能搞定的。OpenAI GPT家族在深入了解开发出比肩与之对抗的是什么样的挑战之前,让我们先看下它拥有的成员有哪些成员。这包括:
GPT-1发布于2018年6月,是第一个采用基于Transformer架构进行预训练的大型语言模型。
GPT-2发布于2019年2月,其参数量为117M,可以说是第一代更进一步。
最后是2020年的GPT-3,它包含175B个参数,这是一个巨大的飞跃,使其拥有出了色的通用性和创造性,可以在各种NLP任务上表现出色。
但这还只是开端。在这些系列模型(注意,是一系列模型哦)发布之后,还不断地完善,比如InstructGPT和ChatGFT实际内部代号是text-davinci-003 175B和text-chat-davinci-002-20221122,是基于改良后的基础上进行优化。
数据量需要大量高质量、高多样化数据集进行训练,这要求资源收集、整理标注极为庞大。而计算能力则需要非常强大的计算资源,对算法优化也有很高要求,这涉及到深度学习领域知识积累以及经验积累。只有同时具备基础设施建设、大规模数据集收集与处理能力以及深厚的人工智能理论知识储备才能研发出高质量的大型语言模型并应用于各种场景中。
让我们详细看看这三类技术挑战具体都意味着什么:
数据量
训练如此复杂的大型语言模型所需数据量规模远超以往,大约300B tokens。
对于中文来说,更难以获得这样的数量级别,因为英文维基百科只有相对较小数额,也就是300B tokens不到。
这对于任何机构来说都是不可逾越的一座山峰,要想达到这样水平,就必须寻求其他途径或方式获取这些必要信息,如通过社交媒体平台、论坛讨论区等渠道搜集,以增加中文文本库存。
计算能力
类似大小项目训练过程需要海量算力支持,每次迭代可能会花费数周甚至几个月时间完成,而每一次尝试都会带来新的挑战,有时因为硬件不足或软件配置问题导致整个过程无法顺利进行
算法优化
在不同设备上的性能差异很明显,因此不能简单复制国际标准,不同国家地区背景下的特点也是重要因素之一
总结一下:“中国版”是否可以快速出现还是充满未知,看待这一切似乎并不那么容易。但前提条件已成熟,为此努力付诸实践,就如同向往已久的事物渐渐展现,最终必将实现。不管未来如何发展,只要坚持不懈地探索与创新,“中国版”_chatgpt_最终一定能够实现。这便是我们面临的一个全新的时代!