2025-03-15 数码 0
作者:黄楠
编辑:陈彩娴
2023年9月21日,OpenAI推出了名为“Whisper”的新型神经网络系统,这项技术据称在英文语音识别方面已经达到了与人类相当的水平。该系统是一款自动语音识别(ASR)工具,其开发团队通过收集并利用了超过68万小时的多语言和多任务监督数据进行训练。
在训练过程中,研究人员发现使用如此庞大的数据集可以显著提高模型对口音、背景噪声以及专业术语等复杂场景的适应能力。此前的一些研究表明,虽然无监督预训练能够显著提升音频编码器的质量,但由于缺乏高质量的预训练数据和特定于数据集的小幅微调协议,这种方法在一定程度上限制了模型的普适性和鲁棒性。而部分有监督方式下预先训练过的声音识别系统则表现出更强的大规模泛化能力。
OpenAI 在其“Whisper”项目中采取了一种创新策略,即扩展弱监督下的语音识别到68万小时,并且展示了这一规模下的模型能在没有针对特定数据集微调的情况下,对现有的其他大型数据集实现零误差转移,从而获得高质量结果。甚至,有关人工智能领域知名专家的Andrej Karpathy也表示:“OpenAI目前处于最佳状态。”
然而,在使用“Whisper”时,一些用户仍然持有疑虑。例如网友Vincent Lordier提问道:“考虑到GPT-3和DALL·E-2中出现过相关言论审查的问题,我们是否也会遇到类似的问题?是否可能发生‘编辑’或‘删除’用户声音的情况?”因此,这一技术引发了一系列关于隐私保护、伦理标准以及潜在应用范围等议题。
随着这个话题逐渐受到公众关注,我们期待听到更多不同观点,以便全面理解这项革命性的技术及其潜在影响。参考链接:https://openai.com/blog/whisper/