当前位置: 首页 - 手机 - 中国科技最新消息OpenAI开源99种语言语音识别系统whisper

中国科技最新消息OpenAI开源99种语言语音识别系统whisper

2025-02-23 手机 0

OpenAI 最近发布了一个名为 Whisper 的语音识别模型。与 DALLE-2 和 GPT-3 不同,Whisper 是一个免费的开源模型。

Whisper 是一种自动语音识别模型,基于从网络上收集的 680,000 小时多语言数据进行训练。根据 OpenAI 的介绍,该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外,它还支持 99 种不同语言的转录和从这些语言到英语的翻译。

可以看到 Whisper 架构是一个标准的Transformer 模型框架,可见Transformer 模型的应用之广。

其他现有方法经常使用更小、更紧密配对的音频文本训练数据集,或使用广泛但无监督的音频预训练。而 Whisper 是在一个庞大而多样的数据集上训练的,并且没有针对任何特定的数据集进行微调,所以它不会击败专门研究 LibriSpeech 性能的模型。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,发现它比那些模型更加稳健,并且错误率降低了 50%。

Whisper 支持5种不同的模型尺寸,其中前四种针对英文版本,我们可以先用一段英文版本的语音来测试一下

首先我们安装pytube与whisper,pytube 主要功能是从YouTube上面下载相关视频

然后我们随便找一段英文视频并复制其链接地址,然后插入如下代码

video = https://www.youtube.com/watch?v=-7E-qFI

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

这里简单提一下pytube库,此库可以下载YouTube视频或仅包含声音部分(MP4)的文件

model = whisper.load_model(medium)

text = model.transcribe(11.mp4)

text[text]

I dont know who you are. I dont know what you want. If you are looking for ransom, I can tell you I dont have money. But what I do have are a very particular set of skills. Skills I have acquired over a very long career. Skills that make me a nightmare for people like you.

当然,还有其他支持中文等多个国家和地区官方语言及方言,如德国、意大利等国,可以通过设置相应参数实现不同区域性的语音识别任务。

import ipywidgets as widgets

languages = {af_za: Afrikaans, am_et: Amharic, ar_eg: Arabic, as_in: Assamese, az_az: Azerbaijani, be_by: Belarusian, bg_bg: Bulgarian, bn_in: Bengali}

标签: vivo刚上市的新款手机一键清除锁屏密码红米note10苹果14手机图片及价格一加8t