2025-03-15 数码 0
9月21日,OpenAI 推出了名为「Whisper」的新技术,这是一种使用了68万小时的多语音和多任务监督数据训练的自动语音识别(ASR)系统。据称,其在英语语音识别方面已达到了接近人类水平的性能。
「Whisper」通过利用一个庞大的数据集来提高对口音、背景噪声和专业术语等因素的鲁棒性。在过去,有研究表明无监督预训练可以显著提升音频编码器,但缺乏高质量同类数据限制了模型的有效性。而部分有监督预训练则表现出更高的鲁棒性。
在「Whisper」中,OpenAI 通过扩大到比现有高质量数据集总和还要大的新数据集,将弱监督语音识别量级提升至68万小时,并展示了在这种规模下所训练模型能够实现零微调效果,从而产生高质量结果。
此消息引起了前特斯拉人工智能与自动驾驶部门负责人的Andrej Karpathy关注,他表示“OpenAI 正处于最好的状态”。然而,也有一些用户对于使用「Whisper」存在疑虑,如是否会出现编辑或删除用户声音的情况。因此,对于这项技术未来应用的人们持保留态度。
参考链接:https://openai.com/blog/whisper/