2025-03-15 数码 0
9月21日,OpenAI 推出了名为「Whisper」的新型神经网络系统,这一系统在英语语音识别方面的性能已达到了接近人类水平的标准。该「Whisper」是一个自动语音识别(ASR)模型,其研发团队利用了来自网上的68万小时多样化数据进行了训练。
通过使用如此庞大的数据集,研究人员发现这一方法可以显著提高对不同口音、背景噪音以及专业术语的适应能力。这对于之前研究表明,无监督预训练虽然能大幅提升音频编码器质量,但由于缺乏高质量的预训练数据和特定微调协议,在一定程度上限制了模型的有效性和鲁棒性的问题提供了解决之道。
相比于部分有监督方式下的预训练语言模型,它们在某些情况下表现出的更高鲁棒性也得到了验证。在「Whisper」的开发中,OpenAI 利用一个远超过现有最高质量数据集总和数倍的大规模新数据集,并扩展了弱监督语音识别到68万小时。此外,该团队还展示了即使是在这种规模下所训练出的模型在转移至其他现有数据集时能够保持零错误率,从而消除了任何特定于微调协议的问题,从而实现了一致高效结果。
此事业绩激励前特斯拉人工智能与自动驾驶部门负责人 Andrej Karpathy 发出好评称:“OpenAI 正处于最佳状态。”然而,有用户仍对其安全性持疑虑,比如 Vincent Lordier 问及是否会出现类似GPT-3和Dalle-2禁止言论编辑删除用户内容的情况。
那么公众如何看待这一新技术呢?参考链接:https://openai.com/blog/whisper/
上一篇:热流的舞蹈温度之旅
下一篇:主题-冷却塔填料选择与应用技巧