当前位置: 首页 - 数码 - 科技部人才与科学普及司揭秘中文ChatGPT面临的挑战之一训练集难题生造出杠精

科技部人才与科学普及司揭秘中文ChatGPT面临的挑战之一训练集难题生造出杠精

2024-12-13 数码 0

各大企业不论真实性或规模,无不趋之若鹜,紧跟ChatGPT的热潮。尽管我相信,一些公司确实在坚定研发的道路上前行,致力于打造一款中文版的ChatGPT。这一切背后,ChatGPT在英文领域取得显著成绩的一个关键因素是,英语作为全球通用语言,其训练数据量巨大而且易于获取。相较之下,中文虽然重要,但在网络上流传的数据量有限。OpenAI对中文技术发展可能并不视为首要任务。

然而,即便如此,对于构建中文版本的挑战并非难以克服。中国在人工智能领域研究水平与美国相当,不乏高水平学术论文。而真正面临困难的是如何建立一个庞大的、质量优良的中文训练集。如果没有足够数量和质量上的训练材料,就会导致生成出来的对话模仿贴吧风格,有点“杠精”的味道,这让人质疑其实际应用价值。在此背景下,要想推出一款可靠且有效率的中文ChatGPT,其工程师们必须解决这一核心问题。

标签: 数码宝贝第三部国语版什么叫数码产品手机数码新闻手机对比参数配置平台戴尔