2025-03-15 数码 0
作者:黄楠
编辑:陈彩娴
2023年9月21日,OpenAI推出了名为“Whisper”的新型神经网络系统,这项技术在识别英语语音的准确性和鲁棒性方面已达到了人类水平。该系统是一款自动语音识别(ASR)工具,其研发团队利用了来自互联网上共计68万小时的多语言、多任务数据进行训练。
通过使用如此庞大且多样化的数据集,研究人员发现这有助于提高模型对口音、背景噪声以及专业术语等因素的适应能力。之前的一些研究表明,无监督预训练可以显著提升音频编码器的质量,但缺乏高质量同类数据和特定微调协议限制了模型在实际应用中的效果。此外,有监督方式下预训练的声音识别系统表现通常优于单一来源训练的模型。
为了克服这些局限,OpenAI在“Whisper”中采用了一个规模远超现有高质量数据集总和的大型弱监督语音识别项目,并成功扩展到68万小时级别。此外,实验结果显示,在这种规模下所训练出的模型能够无需特定微调即可在不同数据集上实现高效率,从而消除了对具体数据集微调依赖的问题。
此事也得到了前特斯拉人工智能与自动驾驶部门负责人Andrej Karpathy认可,他表示:“OpenAI目前处于最佳状态。”然而,一些用户仍对其使用可能带来的风险持有疑虑。例如,有网友质疑是否会出现如GPT-3和Dalle-2中禁止言论的情况,以及是否会发生用户语音被编辑或删除的问题。
随着技术不断进步,我们将继续关注并探讨这一革命性的创新如何影响我们的未来生活。在此过程中,每个人的意见都至关重要。如果你对Whisper有什么看法,不妨分享给我们,让我们一起见证科技如何改变世界。参考链接:https://openai.com/blog/whisper/