2025-03-15 数码 0
9月21日,OpenAI发布了名为「Whisper」的神经网络系统,该系统在英语语音识别方面表现接近人类水平的鲁棒性和准确性。该自动语音识别(ASR)系统通过训练于来自网络的68万小时多语种、多任务监督数据集来实现这一功能。
研究团队发现,使用如此庞大且多样化的数据集可以显著提高模型对口音、背景噪声以及技术术语等因素的适应能力。这与之前有关无监督预训练提升音频编码器质量但受限于特定数据集微调协议的情况形成鲜明对比。部分有监督方式预训练的语音识别系统则显示出更高鲁棒性的潜力。
在「Whisper」中,OpenAI扩展了弱监督语音识别到68万小时,并演示了这些规模下的模型能够在零射击转移现有数据集上工作,从而消除任何特定于数据集微调带来的影响,从而获得高质量结果。此举得到了前特斯拉人工智能和自动驾驶部门负责人的赞赏,他称OpenAI正处于最佳状态。
然而,对于使用「Whisper」的用户,有些仍然持怀疑态度。网友 Vincent Lordier 提出了关于GPT-3和Dalle-2相关言论禁止行为的问题,并询问是否同样会发生在「Whisper」上,以及是否可能出现编辑或删除用户录制内容的情形。
综上所述,这一新技术引发了一系列讨论,其中包含了对其性能、应用范围以及隐私保护措施等方面的考量。在这个过程中,不少网友提出了他们对于此类技术发展及其后果的看法,但最终如何处理这些问题还需时间来观察和评估。
参考链接:https://openai.com/blog/whisper/