2025-03-15 数码 0
9月21日,OpenAI 推出了名为「Whisper」的新技术,这是一种使用了68万小时的多语音和多任务监督数据训练的自动语音识别系统。据称,它在英语语音识别方面达到了接近人类水平的性能。
「Whisper」通过利用一个庞大的数据集进行训练,能够更好地应对口音、背景噪声和专业术语等挑战。这不同于之前的一些研究方法,其中虽然无监督预训练可以显著提高模型质量,但由于缺乏高质量的预训练数据以及特定于某个数据集的微调协议,因此其有效性和鲁棒性受到限制。而部分有监督方式预训练的语音识别系统则表现出更高的鲁棒性。
在「Whisper」的开发中,OpenAI 使用了比现有高质量数据集总和大几倍的大量弱监督语音识别数据,并且展示了在这种规模下,可以实现零射击效果,即不需要特定于某个数据集的小调整就能获得高质量结果。前特斯拉人工智能与自动驾驶部门负责人 Andrej Karpathy 对此表示赞赏,认为 OpenAI 正处于最佳状态。
然而,有用户对于使用「Whisper」存在疑虑,他们担心可能会出现类似GPT-3 和 Dalle-2 中禁止言论行为的问题,也就是是否会发生编辑或删除用户录制的声音的情况。因此,这一技术引发了一系列讨论,看看大家怎么看待这一问题?
参考链接:https://openai.com/blog/whisper/