当前位置: 首页 - 手机 - OpenAI开源的语音识别系统whisper可识别99种语言推动科学发展

OpenAI开源的语音识别系统whisper可识别99种语言推动科学发展

2025-02-23 手机 0

OpenAI 最近发布了一个名为 Whisper 的语音识别模型。与 DALLE-2 和 GPT-3 不同,Whisper 是一个免费的开源模型。

Whisper 是一种自动语音识别模型,基于从网络上收集的 680,000 小时多语言数据进行训练。根据 OpenAI 的介绍,该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外,它还支持 99 种不同语言的转录和从这些语言到英语的翻译。

可以看到 Whisper 架构是一个标准的Transformer 模型框架,可见Transformer 模型的应用之广。

其他现有方法经常使用更小、更紧密配对的音频文本训练数据集,或使用广泛但无监督的音频预训练。而 Whisper 是在一个庞大而多样的数据集上训练的,并且没有针对任何特定的数据集进行微调,所以它不会击败专门研究 LibriSpeech 性能的模型。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,发现它比那些模型更加稳健,并且错误率降低了 50%。

Whisper 支持5种不同的模型尺寸,其中前四种针对英文版本,我们可以先用一段英文版本的语音来测试一下

首先我们安装pytube与whisper,pytube 主要功能是从YouTube上面下载相关视频,可以同时支持下载视频中的音频

然后我们随便找一段英文视频链接,然后插入如下代码

video = https://www.youtube.com/watch?v=-7E-qFI

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

这里简单提一下pytube库,此库可以下载YouTube视频文件,但我们的主要任务是利用whisper来进行语音识别

model = whisper.load_model(medium)

text = model.transcribe(11.mp4)

text[text]

从whisper模式可知,其提供了5种不同大小(medium, small, base)以及big和tiny,这些分别代表着其复杂度,从而影响计算资源消耗和精确度。在这个例子中,我们选择medium级别用于翻译。

I dont know who you are. I dont know what you want. If you are looking for ransom, I can tell you I dont have money. But what I do have are a very particular set of skills. Skills I have acquired over a very long career. Skills that make me a nightmare for people like you.

当然,不仅限于英语,还有很多其他语言,如中文等等,我们将试图通过以下代码实现中文语音识别并翻译成中文:

import ipywidgets as widgets

languages = {af_za: Afrikaans, am_et: Amharic, ar_eg: Arabic, as_in: Assamese, az_az: Azerbaijani

...

然后,将以上生成的一个中文句子输入到transcribe函数中,以完成中文语义理解并输出结果:

model_chinese = whisper.load_model('chinese')

text_chinese = model_chinese.transcribe('chinese.mp4')

print(text_chinese)

这部分内容展示了如何使用OpenAI提供的一款开源工具—Whisper—来处理各种不同类型的声音文件,以及如何以不需要额外配置的情况下跨越多个编程环境执行这些操作。

标签: 2023最新款手机排行榜手机动漫p30google手机新机