2025-03-15 数码 0
作者:黄楠
编辑:陈彩娴
9月21日,OpenAI宣布推出名为「Whisper」的新技术,这一神经网络系统据称在英语语音识别领域已经达到了人类水平的性能。该系统是一个自动语音识别(ASR)模型,其训练过程中使用了来自网络的68万小时多语言和多任务监督数据集。
研究人员发现,通过利用如此庞大且多样化的数据集,他们能够提高模型对口音、背景噪声和专业术语的适应能力。这与之前研究表明,无监督预训练可以显著提升音频编码器质量,但由于缺乏高质量的预训练数据以及特定于数据集的小幅调整,因此在一定程度上限制了模型的有效性和稳健性。相比之下,有些有监督方式预先训练的声音识别系统表现出了更好的稳健性。
在「Whisper」中,OpenAI扩展了弱监督语音识别到68万小时,并展示了在这个规模下,所训练模型能够在现有数据集上的零错误率表现,从而消除了任何特定微调协议可能带来的影响,从而实现高质量结果。此前Tesla的人工智能和自动驾驶部门负责人Andrej Karpathy也转发了这一消息称“OpenAI正处于最佳状态”。
然而,不少用户仍对使用「Whisper」存在疑虑。网友Vincent Lordier提出了关于是否会出现相关言论禁止行为,以及是否会发生编辑或删除用户语音的情况的问题。不过,对于这些问题,我们还需要进一步了解情况。
那么大家怎么看?这项技术是否将改变我们的通信方式?请留言分享您的观点!
参考链接:https://openai.com/blog/whisper/