2025-02-23 手机 0
OpenAI发布开源语音识别模型Whisper,支持99种语言的转录和翻译。Whisper基于680,000小时多语言数据训练,具有良好的鲁棒性,对口音、背景噪音和技术术语都有很好地适应能力。此外,它还支持从这些语言到英语的翻译。
Whisper使用Transformer框架,这是当前最流行的自然语言处理模型之一。与其他方法不同的是,Whisper在一个庞大而多样化的数据集上进行了训练,而不是专门针对某个特定数据集进行微调,因此它可能不会在LibriSpeech等特定任务上达到最佳性能。但是在许多不同的数据集上的测试中,发现它比那些专门研究LibriSpeech性能的模型更加稳健,并且错误率降低了50%。
Whisper提供五种不同的模型尺寸,其中前四种为英文版本,我们可以先用一段英文视频来测试一下。首先需要安装pytube和whisper库,然后下载一个包含英文声音的YouTube视频并使用pytube库下载其音频文件。接下来,我们可以使用whisper.load_model(medium)加载"medium"大小的模型,然后通过model.transcribe(11.mp4)代码将下载后的音频文件转换为文本。
除了识别英文之外,whisper还能识别其他语言,如中文。在这个例子中,我们使用中文语音,并将识别后的文本翻译成中文。这不仅展示了whisper在多语言中的应用可能性,也证明了其跨文化交流潜力的强大工具。