OpenAI开源语音识别系统whisper支持99种语言

2025-02-23 手机 0

OpenAI发布开源语音识别模型Whisper，支持99种语言的转录和翻译。Whisper基于680,000小时多语言数据训练，具有良好的鲁棒性，对口音、背景噪音和技术术语都有很好地适应能力。此外，它还支持从这些语言到英语的翻译。

Whisper使用Transformer框架，这是当前最流行的自然语言处理模型之一。与其他方法不同的是，Whisper在一个庞大而多样化的数据集上进行了训练，并且没有针对任何特定的数据集进行微调，因此它不会像专门为LibriSpeech性能优化过的模型那样在某些测试中表现最佳。但是在许多不同的数据集上测量时，发现它比那些模型更加稳定，并且错误率降低了50%。

Whisper提供五种不同的模型尺寸，其中前四种针对英文版本，我们可以先用一段英文版本的语音来测试一下。在安装完成PyTube和whisper后，可以通过以下代码下载视频并提取出其音频部分：