2025-02-23 手机 0
OpenAI发布开源语音识别模型Whisper,支持99种语言的转录和翻译。Whisper基于680,000小时多语言数据训练,具有良好的鲁棒性,对口音、背景噪音和技术术语都有很好地适应能力。此外,它还支持从这些语言到英语的翻译。
Whisper使用Transformer框架,这是当前最流行的自然语言处理模型之一。与其他方法不同的是,Whisper在一个庞大而多样化的数据集上进行了训练,并且没有针对任何特定的数据集进行微调,因此它不会像专门为LibriSpeech性能优化过的模型那样在某些测试中表现最佳。但是在许多不同的数据集上测量时,发现它比那些模型更加稳定,并且错误率降低了50%。
Whisper提供五种不同的模型尺寸,其中前四种针对英文版本,我们可以先用一段英文版本的语音来测试一下。在安装完成PyTube和whisper后,可以通过以下代码下载视频并提取出其音频部分:
import pytube
yt = pytube.YouTube('https://www.youtube.com/watch?v=-7E-qFI')
stream = yt.streams.get_by_itag(22) # 选择720p视频下载
stream.download()
然后我们可以使用whisper模型来进行语音识别任务:
model = whisper.load_model('medium')
text = model.transcribe('11.mp4')
print(text)
这段代码将自动识别并打印出识别出来的txt文本。
除了英文,还可以使用中文等其他语言进行测试。此外,还可以查看一些中文或其他非英语国家的人如何利用这个工具来理解他们自己的母语中的内容。
上一篇:三棵树股票守护财富的绿色守望者
下一篇:振动电机的应用与维护技巧