当前位置: 首页 - 手机 - 手抄报使用OpenAI的Whisper语音识别系统

手抄报使用OpenAI的Whisper语音识别系统

2025-02-23 手机 0

Whisper语言识别模型介绍

Whisper是由OpenAI开发的一个自动语音识别模型,基于从互联网上收集的680,000小时多语言数据进行训练。它对口音、背景噪音和技术术语都具有很好的鲁棒性,并且支持99种不同的语言的转录以及将这些语言翻译成英语。

Whisper Transformer框架

可以看到Whisper采用了标准的Transformer模型框架,展示了Transformer在各种应用中的广泛使用。

Whisper与其他现有方法比较

其他现有的方法通常会使用更小、更紧密匹配的音频文本训练数据集,或是未监督地在大量但不受约束的预训练数据上进行处理。而Whisper是在一个庞大而多样化的数据集上训练,没有针对特定数据集进行微调,因此它不会像专门研究LibriSpeech性能的小型模型那样表现良好。但当我们在许多不同数据集上的零样本性能测量时,我们发现Whisper比那些模型更加稳健,其错误率降低了50%。

Whisper支持5种不同的模型尺寸

Whisper支持5种不同的模型尺寸,其中前四个都是针对英文版本。我们可以先用一段英文版本的语音来测试一下。

使用代码实战

首先,我们安装pytube和whisper库:

!pip install --upgrade pytube

!pip install git https://github.com/openai/whisper.git –q

选择视频下载并转换为可用于whisper识别的声音文件:

import whisper

import pytube

video = "https://www.youtube.com/watch?v=-7E-qFI"

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

# 这里简单提一下pytube库,它可以下载YouTube视频与其相关信息。

yt = pytube.YouTube("https://www.youtube.com/watch?v=-LIIf7E-qFI")

stream = yt.streams.get_by_itag(22) # 选择720p视频下载

model = whisper.load_model("medium")

text = model.transcribe(audio_file="11.mp4")

print(text)

I dont know who you are. I dont know what you want. If you are looking for ransom, I can tell you I dont have money.

But what I do have are a very particular set of skills.

Skills I have acquired over a very long career.

Skills that make me a nightmare for people like you.

If you let my daughter go now, that will be the end of it.

Good luck.

标签: 摩托罗拉手机大全华为手机系列排行榜zhongguancun华为mate手机手机连续剧