代码实战OpenAI开源的能识别99种语言的语音识别系统whisper用于航空领域应用

2025-02-23 手机 0

代码实战OpenAI开源的能识别99种语言的语音识别系统——whisper在航空领域应用

Whisper 是一种自动语音识别模型，基于从网络上收集的 680,000 小时多语言数据进行训练。根据 OpenAI 的介绍，该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外，它还支持 99 种不同语言的转录和从这些语言到英语的翻译。

Whisper transformer 框架

可以看到 Whisper 架构是一个标准的Transformer 模型框架，可见Transformer 模型的应用之广。

其他现有方法经常使用更小、更紧密配对的音频文本训练数据集，或使用广泛但无监督的音频预训练。而 Whisper 是在一个庞大而多样的数据集上训练的，并且没有针对任何特定的数据集进行微调，所以它不会击败专门研究 LibriSpeech 性能的模型。然而，当我们在许多不同的数据集上测量 Whisper 的零样本性能时，发现它比那些模型更加稳健，并且错误率降低了 50%。

Whisper 支持5种不同的模型尺寸

Whisper 支持5种不同的模型尺寸，其中前四种针对英文版本，我们可以先用一段英文版本的语音来测试一下

首先我们安装pytube与whisper，pytube 主要功能是从YouTube 上面下载相关视频，以及支持下载视频中的声音部分。然后我们随便找一段英文视频并复制其链接地址，然后插入如下代码：

import whisper

import pytube

video = "https://www.youtube.com/watch?v=-7E-qFI"

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

代码执行完成后，将会自动下载此视频文件的声音部分，其为MP4文件，其实是只有声音内容的一份复制品。

这里简单提一下pytube 库，这个库可以用来下载 YouTube 视频与声音部分当然，上面的代码是用于下载声音部分下面的代码可用于下载整个视频：

import pytube

yt = pytube.YouTube("https://www.youtube.com/watch?v=-LIIf7E-qFI")

yt.streams.filter(file_extension="mp4").order_by('resolution').desc().first().download()

这将会选择720p分辨率下的视频并将其保存下来。

言归正传，我们已经成功地通过以下步骤获取了我们的目标航空公司会议记录的声音文件：

使用 PyTube 下载所需会议记录中包含的声音文件。

将该 MP4 文件上传至 Whisper 中。

利用 Whisper 的 transcribe 函数将其转换成文字格式，以便进一步分析或处理。

例如，如果你想要使用 Medium 大小（medium）的 Whisper 模型，你可以这样操作：

model = whisper.load_model("medium")

text = model.transcribe("11.mp4")

print(text)

这将输出原始中文文本。如果需要翻译成其他语言，可以通过修改 languages 字典中的值来实现，如下所示：

am_et: Amharic (埃塞俄比亚)

ar_eg: Arabic (阿拉伯语)

最终结果应为："我不认识你。我不知道你想什么。如果你是在寻求赎金，我告诉你我没有钱。但我有一套非常特殊的手艺。这是我经过长期职业生涯学习获得的手艺。这使得我对于像你这样的个人来说是一场噩梦。如果您现在释放我的女儿，这一切就会结束。我不会追踪您。我不会追捕您。但如果您不这样做，我会找到您。我会杀掉您。祝好。”

标签：华为3000元左右手机、新手机第一次充电正确方法、 2022年手机销量排行榜、 oppo2022年最新款、 2022最建议买的手机

上一篇：家用水管系统的PVC管材选择与安装指导

下一篇：OpenAI开源的语音识别系统whisper技术革新与语言传承

代码实战OpenAI开源的能识别99种语言的语音识别系统whisper用于航空领域应用

树脂井盖与传统铁皮井盖相比具有哪些优势

六零年代公派婚姻的文化与社会背景探究

波纹中的坚韧不锈钢管的反差制造

科学与艺术相结合揭秘印刷技术中的引发剂

神U再临联发科官宣天玑8200即将正式发布