2025-03-15 数码 0
9月21日,OpenAI 推出了名为「Whisper」的新技术,这是一种使用了68万小时的多语音和多任务监督数据训练的自动语音识别系统。据称,它在英语语音识别方面达到了接近人类水平的性能。
「Whisper」通过利用一个庞大的数据集进行训练,能够更好地应对口音、背景噪声和专业术语等挑战。这不同于之前的一些研究方法,其中虽然无监督预训练可以显著提高模型质量,但由于缺乏高质量的预训练数据以及特定于某个数据集的微调协议,因此其有效性和鲁棒性受到限制。而有监督预训练则表现出更好的鲁棒性。
在开发「Whisper」时,OpenAI 使用了远超过现有高质量数据集总和数量级的大量弱监督语音识别数据,并展示了这种规模下模型在零射击(即不需要针对任何特定数据集进行微调)上取得了高质量结果。前特斯拉人工智能和自动驾驶部门负责人 Andrej Karpathy 表示“OpenAI 正处于最好的状态”。
尽管如此,一些用户仍然对使用「Whisper」存在疑虑。例如,有网友担心是否会出现与GPT-3和Dalle-2类似的言论控制问题,以及是否会发生编辑或删除用户声音的情况。
随着技术不断进步,我们将继续关注这项技术如何影响我们的生活,以及它带来的潜在益处及其风险如何得到平衡。
参考链接:https://openai.com/blog/whisper/