2025-02-23 手机 0
Whisper语言识别模型介绍
Whisper是由OpenAI开发的一个自动语音识别模型,基于从互联网上收集的680,000小时多语言数据进行训练。它对口音、背景噪音和技术术语都具有很好的鲁棒性,并且支持99种不同的语言的转录以及将这些语言翻译成英语。
Whisper Transformer框架
可以看到Whisper采用了标准的Transformer模型框架,展示了Transformer在各种应用中的广泛使用。
Whisper与其他现有方法比较
其他现有的方法通常会使用更小、更紧密匹配的音频文本训练数据集,或是未监督地在大量但不受约束的预训练数据上进行处理。而Whisper是在一个庞大而多样化的数据集上训练,没有针对特定数据集进行微调,因此它不会像专门研究LibriSpeech性能的小型模型那样表现良好。但当我们在许多不同数据集上的零样本性能测量时,我们发现Whisper比那些模型更加稳健,其错误率降低了50%。
Whisper支持5种不同的模型尺寸
Whisper支持5种不同的模型尺寸,其中前四个都是针对英文版本。我们可以先用一段英文版本的语音来测试一下。
使用代码实战
首先,我们安装pytube和whisper库:
!pip install --upgrade pytube
!pip install git https://github.com/openai/whisper.git –q
选择视频下载并转换为可用于whisper识别的声音文件:
import whisper
import pytube
video = "https://www.youtube.com/watch?v=-7E-qFI"
data = pytube.YouTube(video)
audio = data.streams.get_audio_only()
audio.download()
# 这里简单提一下pytube库,它可以下载YouTube视频与其相关信息。
yt = pytube.YouTube("https://www.youtube.com/watch?v=-LIIf7E-qFI")
stream = yt.streams.get_by_itag(22) # 选择720p视频下载
model = whisper.load_model("medium")
text = model.transcribe(audio_file="11.mp4")
print(text)
I dont know who you are. I dont know what you want. If you are looking for ransom, I can tell you I dont have money.
But what I do have are a very particular set of skills.
Skills I have acquired over a very long career.
Skills that make me a nightmare for people like you.
If you let my daughter go now, that will be the end of it.
Good luck.
下一篇:集成未来机柜的新篇章