2025-03-15 数码 0
9月21日,OpenAI 推出了名为「Whisper」的新技术,这是一种使用了68万小时的多语音和多任务监督数据训练的自动语音识别(ASR)系统。据称,其在英语语音识别方面已达到了接近人类水平的性能。
「Whisper」通过利用庞大的数据集进行训练,能够更好地适应口音、背景噪声以及专业术语等复杂环境。这一成就是基于前人研究,即无监督预训练可以显著提高音频编码器质量,但由于缺乏高质量的预训练和特定微调协议,这些模型在一定程度上限制了其有效性和鲁棒性。而部分有监督方式预训练的语音识别系统则表现出更高的鲁棒性。
OpenAI 在「Whisper」中实现了将弱监督语音识别规模扩大至68万小时,并且展示了在这种规模下,可以通过转移现有数据集实现零射击效果,从而消除特定微调影响,以达到高质量结果。
Andrej Karpathy,曾是特斯拉的人工智能与自动驾驶部门负责人,也对这一消息表示赞赏,称“OpenAI 正处于最佳状态”。
然而,对于使用「Whisper」系统,有不少用户仍然持有疑虑。例如,有网友提问,“如果之前GPT-3和Dalle-2出现过相关言论禁止行为,那么是否也会在使用『Whisper』时出现类似问题?是否会发生用户录制内容被编辑或删除的情况?”
对于这些问题,以及如何看待这项技术,我们需要进一步探讨并听取更多的声音。参考链接:https://openai.com/blog/whisper/