2025-03-15 数码 0
9月21日,网络科技有限公司(OpenAI)宣布推出了一款名为「Whisper」的新型自动语音识别(ASR)系统,该系统据称在英语语音识别方面的性能已接近人类水平的鲁棒性和准确性。 Whisper 的开发团队通过收集并训练了来自网络上68万小时的多语言和多任务监督数据,以提高其对口音、背景噪音以及专业术语等因素的适应能力。
此前研究显示,无监督预训练能够显著提升音频编码器质量,但由于缺乏同等质量的预训练数据及特定微调协议,这种方法在一定程度上限制了模型的有效性与鲁棒性。而有监督方式下进行预训练则能展示更高的鲁棒性。 OpenAI 在 Whispr 中采取的是一种弱监督学习策略,将这类学习规模扩大至68万小时,并且成功证明了这种规模下的模型能够在零微调的情况下,在现有数据集上的表现,消除了特定于数据集微调带来的影响,从而实现高质量结果。
Andrej Karpathy,曾任特斯拉人工智能和自动驾驶部门负责人,也对此消息表示赞赏:“OpenAI 正处于最佳状态。”然而,有些用户仍然对使用 Whisper 有所担忧,如网友 Vincent Lordier 提问,“是否会出现禁止或删除用户语音的情形?”因此,这一技术发布引发了广泛讨论。
参考链接:https://openai.com/blog/whisper/