2025-03-15 数码 0
9月21日,OpenAI 推出了名为「Whisper」的新技术,这是一种神经网络系统,它声称在英语语音识别方面达到了人类水平的准确性和鲁棒性。这个自动语音识别(ASR)系统利用了来自网上的68万小时多样的数据进行训练,这些数据包括多语言和多任务监督信息。
研究人员发现,使用这么大的且如此多样化的数据集可以提高对口音、噪音以及专业术语的适应能力。这与之前研究表明,无监督预训练能够显著提升音频编码器质量,但由于缺乏同等质量的预训练以及特定于某个数据集的小幅调整,因此模型在实际应用中的有效性和稳定性有所限制。而部分有监督方式下预训练的语音识别系统则表现出更高的稳定性。
OpenAI 在「Whisper」中通过扩展弱监督语音识别到68万小时,并展示了这种规模下的模型如何在现有数据集上实现零微调,从而达到高质量结果。前特斯拉人工智能部门负责人Andrej Karpathy 也对此表示赞赏,认为OpenAI 正处于最佳状态。
然而,对于使用「Whisper」的用户来说,还存在一些疑虑。例如,有用户提问是否会出现类似GTP-3和Dalle-2中禁止言论的问题,以及是否可能出现编辑或删除用户录制声音的情况。不过,我们还需要更多具体信息来评估这些担忧。
总之,“Whisper”似乎是一个具有潜力的工具,它可能会极大地改变我们处理语言输入输出过程的一切。但同时,也需要继续观察其发展以确保它能够安全可靠地被用于各种场景。参考链接:https://openai.com/blog/whisper/