2025-03-15 数码 0
作者:黄楠
编辑:陈彩娴
2023年9月21日,OpenAI 推出了一项名为「Whisper」的先进技术,该系统在英语语音识别领域表现接近人类的准确度和鲁棒性。该系统采用了来自网络的68万小时多语言、多任务数据进行训练,这一庞大且多样化的数据集增强了对不同口音、背景噪音以及专业术语等因素的适应力。
研究人员发现,即使是无监督预训练也能够显著提升音频编码器的质量,但由于缺乏同等规模高质量数据集,以及特定于某些数据集微调策略,模型在实际应用中的有效性和鲁棒性仍有所限制。而通过部分有监督方式预训练语音识别系统,其表现往往会超过单一源训练模型。
为了克服这些局限,OpenAI 在「Whisper」中使用了一个远超现有高质量数据集总和数量级的大型新数据集,并将弱监督语音识别扩展到了68万小时。此外,他们还展示了在这种规模下训练模型可以实现高效转移到现有数据集零热身,从而消除了任何特定于微调协议的问题,从而获得更好的结果。
Andrej Karpathy 前特斯拉人工智能与自动驾驶部门负责人,在社交媒体上分享此消息时称“OpenAI 正处于最佳状态”。然而,有用户对于使用「Whisper」存在疑虑,如网友Vincent Lordier提问,“是否会出现与GPT-3 和 Dalle-2 中禁止言论相似的行为?是否可能发生 Whisper 编辑或删除用户录制的声音的情况?”
随着技术不断发展,我们期待见证这一新工具如何被应用,以及它对我们的生活带来的变化。参考链接:https://openai.com/blog/whisper/