2025-03-15 数码 0
9月21日,OpenAI 推出了名为「Whisper」的先进神经网络技术,这项技术在英语语音识别方面达到了人类水平的性能。该系统是一个自动语音识别(ASR)模型,它通过利用了来自互联网的68万小时多语言和多任务监督数据进行训练。
研究人员发现,使用如此庞大且多样化的数据集可以显著提高对口音、背景噪声和专业术语等因素的适应能力。在之前的一些研究中,有人证明虽然无监督预训练能够显著提升音频编码器的质量,但由于缺乏同等质量的大规模预训练数据以及特定于小型数据集微调协议,这限制了模型的有效性和鲁棒性。而有监督方式预训练语音识别系统则表现出更高的鲁棒性。
在「Whisper」项目中,OpenAI 利用一个远超过现有高质量数据集总和数量级的大量弱监督语音识别数据进行了扩展,并展示了在这种规模下所训练模型能够在转移到现有较小数据集时实现零误差,从而消除了任何特定于微调过程中的影响,以达到高效结果。前特斯拉人工智能与自动驾驶部门负责人Andrej Karpathy也对这一成果表示赞赏,将其描述为“OpenAI 正处于最强大的状态”。
然而,对于使用「Whisper」的人来说,还存在一些疑虑。例如,一位网友Vincent Lordier提问:“考虑到GPT-3 和 Dalle-2 中曾出现过相关言论内容管理的问题,我们是否会遇到类似的问题?是否会发生用户录制的声音被编辑或删除?”因此,对此问题人们持不同的看法。
参考链接:https://openai.com/blog/whisper/