2025-02-23 手机 0
科技公司采用OpenAI开源的whisper系统进行99种语言语音识别
最近,OpenAI发布了一个名为Whisper的语音识别模型,这是一个免费且开源的工具。与DALLE-2和GPT-3不同,Whisper专注于自动化语音转录,并支持多语言识别。
Whisper模型基于网络上收集的680,000小时多语言数据进行训练。它能够很好地抵抗口音、背景噪声以及技术术语等因素。此外,该模型还可以将这些语言中的文本翻译成英语,总共支持99种不同的语言。
Whisper使用Transformer框架,这是标准的Transformer结构。其他现有的方法通常使用更小或更紧密配对的声音和文本数据集进行训练,或是使用广泛但无监督的预训练策略。而Whisper是在一个庞大而多样化数据集上训练,没有针对特定数据集微调,因此它不会像专门针对LibriSpeech性能优化的模型那样表现出色。但在许多不同数据集中测量Zero-Shot性能时,发现Whisper比那些模型更加稳健,其错误率降低了50%。
此外,Whisper提供五种不同的模型尺寸,其中前四个适用于英文版本,而后一个适用于所有其他语言。开发者可以根据需要选择合适大小的模型来进行部署。
为了体验这个工具,我们首先需要安装必要库:pytube和whisper。在有英文视频链接的情况下,我们可以通过以下代码下载视频并从中提取声音:
import pytube
import whisper
video = "https://www.youtube.com/watch?v=-7E-qFI"
data = pytube.YouTube(video)
audio = data.streams.get_audio_only()
audio.download()
model = whisper.load_model("medium")
text = model.transcribe(audio_file="11.mp4")
print(text)
这段代码会下载指定YouTube视频中的音频文件,并使用Medium-sized Whisper Model 进行转录。如果我们想尝试其他非英文内容,比如中文,我们只需用相应的声音文件替换掉11.mp4即可,然后运行相同代码以获取结果。此外,如果我们想要翻译得到的是中文,那么最后一步应该改为:
text_chinese = text.translate({"en": "zh"})
这样就能获得相应输入的声音文件经过识别后的中文文本输出了。这使得用户不仅能够理解不同国家和地区的人们说什么,而且还能让他们之间交流更加容易。