手抄报使用OpenAI的Whisper语音识别系统

2025-02-23 手机 0

Whisper语言识别模型介绍

Whisper是由OpenAI开发的一个自动语音识别模型，基于从互联网上收集的680,000小时多语言数据进行训练。它对口音、背景噪音和技术术语都具有很好的鲁棒性，并且支持99种不同的语言的转录以及将这些语言翻译成英语。

Whisper Transformer框架

可以看到Whisper采用了标准的Transformer模型框架，展示了Transformer在各种应用中的广泛使用。

Whisper与其他现有方法比较

其他现有的方法通常会使用更小、更紧密匹配的音频文本训练数据集，或是未监督地在大量但不受约束的预训练数据上进行处理。而Whisper是在一个庞大而多样化的数据集上训练，没有针对特定数据集进行微调，因此它不会像专门研究LibriSpeech性能的小型模型那样表现良好。但当我们在许多不同数据集上的零样本性能测量时，我们发现Whisper比那些模型更加稳健，其错误率降低了50%。

Whisper支持5种不同的模型尺寸

Whisper支持5种不同的模型尺寸，其中前四个都是针对英文版本。我们可以先用一段英文版本的语音来测试一下。

使用代码实战

首先，我们安装pytube和whisper库：

!pip install --upgrade pytube

!pip install git https://github.com/openai/whisper.git –q

选择视频下载并转换为可用于whisper识别的声音文件:

import whisper

import pytube

video = "https://www.youtube.com/watch?v=-7E-qFI"

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

# 这里简单提一下pytube库，它可以下载YouTube视频与其相关信息。

yt = pytube.YouTube("https://www.youtube.com/watch?v=-LIIf7E-qFI")

stream = yt.streams.get_by_itag(22) # 选择720p视频下载

model = whisper.load_model("medium")

text = model.transcribe(audio_file="11.mp4")

print(text)

I dont know who you are. I dont know what you want. If you are looking for ransom, I can tell you I dont have money.

But what I do have are a very particular set of skills.

Skills I have acquired over a very long career.

Skills that make me a nightmare for people like you.

If you let my daughter go now, that will be the end of it.

Good luck.

标签：摩托罗拉手机大全、华为手机系列排行榜、 zhongguancun 、华为mate手机、手机连续剧

上一篇：化工固体药品检测技术与质量控制体系研究

下一篇：集成未来机柜的新篇章

手抄报使用OpenAI的Whisper语音识别系统

我花钱买了高端相机但学摄影后悔了怎么办

捕捉精彩摄影手机时代的艺术与技术融合

独白中的世界

摄影技巧-拍摄器材大全图片揭秘专业摄影的必备工具

捕捉时光的瞬间全球杰出人像摄影作品深度解析