2025-02-23 手机 0
代码实战OpenAI开源的能识别99种语言的语音识别系统——whisper在航空航天领域的应用
Whisper是由OpenAI开发的一个自动语音识别模型,能够处理来自网络上680,000小时多语言数据训练集。该模型对口音、背景噪音和技术术语表现出较好的鲁棒性,并且支持99种不同语言的转录和英语翻译。
Whisper基于Transformer框架设计,显示了Transformer模型在各种任务中的广泛应用。与那些专门针对LibriSpeech数据集进行微调的模型相比,虽然Whisper没有达到最佳性能,但在多个不同的数据集上测量其零样本性能时发现它更加稳定,并且错误率降低了50%。
Whisper提供五种不同的模型尺寸,其中前四种适用于英文版本。用户可以根据需要选择合适大小的模型进行测试。在这篇文章中,我们将使用一个英文视频作为示例来演示如何安装必要库、下载视频并使用Whisper进行语音识别。
首先,我们需要安装pytube和whisper库:
!pip install --upgrade pytube
!pip install git https://github.com/openai/whisper.git –q
然后,我们可以通过以下代码片段来实现这一过程:
import whisper
import pytube
# 示例视频链接
video = "https://www.youtube.com/watch?v=-7E-qFI"
# 使用pytube下载视频文件(仅包含音频)
data = pytube.YouTube(video)
audio = data.streams.get_audio_only()
audio.download()
# 选择medium-sized model并执行转录操作
model = whisper.load_model("medium")
text = model.transcribe(audio.filepath)
print(text)
这些代码将会帮助我们完成从YouTube下载视频到使用Whisper进行语音识别的大部分工作。在这个过程中,可以看到pytube库不仅支持下载视频,还有能力从YouTube获取特定的流格式,比如720p等。此外,它还允许用户自行选择想要下载或处理的声音内容。
最后,让我们回顾一下OpenAI Whisper的一些关键特点:它是一个开源项目,涵盖了5个不同尺寸的小型、中型、大型、超大型以及极大型模式;它以其强大的鲁棒性而著称,对于口腔模糊度、高噪声环境以及专业术语都表现出良好效果;此外,它还支持超过99种不同的语言,使得其成为一种非常有用的工具,不论是在航空航天领域还是其他任何需求跨语言交互的地方。