2025-03-15 数码 0
作者:黄楠
编辑:陈彩娴
2023年9月21日,OpenAI 宣布推出了一项名为“Whisper”的先进人工智能技术,这一系统据称在英语语音识别领域达到了接近人类水平的性能。
Whisper是一个高级自动语音识别(ASR)系统,它通过利用来自网络的680,000小时多语言和多任务监督数据集进行了训练。研究人员发现,在使用如此庞大且多样化的数据集进行训练时,可以显著提高模型对口音、背景噪声和专业术语等方面的鲁棒性。
此前已有研究表明,无监督预训练可以显著提升音频编码器的质量,但由于缺乏同等质量的预训练数据以及特定于某些数据集微调协议,因此在一定程度上限制了模型的有效性和鲁棒性。而部分有监督方式下的预训练语音识别系统则表现出了更高的一致性。
在Whisper中,OpenAI通过扩展弱监督语音识别到68万小时,并在这种规模下展示了所用模型能够实现无需特定微调即可取得高质量结果。该公司还演示了这些模型可以从现有较小但精心挑选的大型数据库转移学习,从而消除了任何特定于数据库微调可能带来的影响。
Andrej Karpathy,曾任职于特斯拉的人工智能和自动驾驶部门负责人,也分享了这一消息,并表示:“OpenAI目前处于最佳状态。”然而,有用户对于使用Whisper是否会出现类似GPT-3和DALL-E 2中禁止言论的问题提出了疑问,他们担忧是否也会存在编辑或删除用户声音的情况。
那么,这一新技术能否确保隐私与安全?这仍然是值得探讨的话题之一。
上一篇:机翼翱翔汽车零部件的抽象诗篇
下一篇:我被骗了tds笔的骗局如何不上当