2025-03-15 数码 0
9月21日,OpenAI 推出了名为「Whisper」的新技术,这是一种神经网络系统,它声称其在英语语音识别方面已经达到了接近人类水平的性能。该系统是一个自动语音识别(ASR)工具,其开发团队利用了来自互联网的68万小时多语言和多任务数据集来进行训练。
通过使用如此庞大且多样化的数据集,研究人员发现这种方法可以提高对口音、背景噪声以及专业术语等因素的适应性。这与之前的一些研究相符,那些研究表明虽然无监督预训练能够显著提升音频编码器的质量,但缺乏同等高质量的预训练数据和特定于数据集的小幅调整会限制模型的有效性和稳健性。而在部分有监督方式下预先训练语音识别模型时,它们表现出比单一来源训练模型更高的适应能力。
在「Whisper」中,OpenAI 利用比现有高质量数据集还要大的新数据集,将弱监督下的语音识别规模扩展到68万小时,并展示了在这个规模下所训练模型如何在没有任何特定微调的情况下,在现有不同数据集中实现零错误率,从而获得高质量结果。
前特斯拉的人工智能和自动驾驶部门负责人Andrej Karpathy也转发了这一消息,他表示“OpenAI 正处于最佳状态”。然而,对于使用「Whisper」的用户,有一些仍然持保留态度。网友 Vincent Lordier 问道,“如果过去GPT-3和Dalle-2中出现过相关言论限制,那么是否也会发生类似的行为?是否可能出现‘编辑/删除’用户录制的声音?”因此,这个问题引起了公众对此新技术潜在应用及其控制机制的问题讨论。