2025-03-15 数码 0
作者:黄楠
编辑:陈彩娴
2023年9月21日,OpenAI推出了名为“Whisper”的新型神经网络系统,这项技术在英语语音识别领域已经达到了人类水平的性能。该系统是一个自动语音识别(ASR)模型,其训练过程采用了来自网络上共68万小时的多语言和多任务数据集。
通过使用如此庞大的数据集,研究人员发现这一方法能够显著提高对口音、背景噪声以及专业术语等复杂因素的适应性。事实上,之前的研究表明,无监督预训练可以极大提升音频编码器的质量,但由于缺乏高质量同类数据和特定的微调策略,它们在实际应用中的效率和稳定性仍有所不足。而部分有监督预训练的语音识别系统则表现出更好的鲁棒性。
在Whisper中,OpenAI以远超过现有高质量数据集总和数倍的大规模弱监督语音识别数据进行了扩展,并展示了即便是在这种规模下,如果模型能成功地迁移至现有数据集,则无需特定于某个数据集的手动微调,就能获得高标准结果。此举不仅突破了传统方法,而且为后续发展奠定了坚实基础。
此消息也得到了前特斯拉人工智能与自动驾驶部门负责人的Andrej Karpathy赞扬,他称OpenAI正处于最佳状态。不过,对于Whisper系统的一些潜在用户来说,他们还是存在一些疑虑。例如,一位网友Vincent Lordier提出:“考虑到GPT-3和Dalle-2曾出现过相关言论限制的情况,我们是否也会遇到类似的问题?是否会出现对用户上传的声音进行编辑或删除的情况?”
因此,这一技术发布引发了一系列讨论。在这个不断变化且充满未知面的科技时代,我们如何看待这类先进技术,以及它们可能带来的影响?我们期待着更多关于这些问题的讨论与分享。
参考链接:https://openai.com/blog/whisper/