2024-12-13 数码 0
各大企业不论真实性或规模,无不趋之若鹜,紧跟chatGPT的热潮。尽管我相信,一些公司确实在坚定研发的道路上前行,致力于打造一款中文版的chatGPT。这一切背后,chatGPT在英文领域取得显著成绩的一个关键因素是,英语作为全球通用语言,其训练数据量巨大而且易于获取。相较之下,中文虽然重要,但在网络上流传的数据量有限。OpenAI对中文技术发展可能并不置高优先级。
然而,即便如此,对于构建中文版本/chatGPT而言,这并非难以逾越的心理障碍。中国在人工智能领域所展现出的研究水平与美国相当,我们可以看到许多高水平的人工智能论文涌现出来。但是,在打造能够提供准确、有用的信息和对话体验的中文ChatGPT时,最大的挑战仍然是如何建立一个庞大的、高质量的中文训练集。
要验证这一点,只需看看那些依赖劣质中文训练集生成对话,它们往往带有浓厚的贴吧风格,这种现象充分说明了这个困境。在此基础上,加强语料库建设和提升模型性能将是创造出更为优秀产品不可或缺的一步。