中国科技最新消息OpenAI开源99种语言语音识别系统whisper

2025-02-23 手机 0

OpenAI 最近发布了一个名为 Whisper 的语音识别模型。与 DALLE-2 和 GPT-3 不同，Whisper 是一个免费的开源模型。

Whisper 是一种自动语音识别模型，基于从网络上收集的 680,000 小时多语言数据进行训练。根据 OpenAI 的介绍，该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外，它还支持 99 种不同语言的转录和从这些语言到英语的翻译。

可以看到 Whisper 架构是一个标准的Transformer 模型框架，可见Transformer 模型的应用之广。

其他现有方法经常使用更小、更紧密配对的音频文本训练数据集，或使用广泛但无监督的音频预训练。而 Whisper 是在一个庞大而多样的数据集上训练的，并且没有针对任何特定的数据集进行微调，所以它不会击败专门研究 LibriSpeech 性能的模型。然而，当我们在许多不同的数据集上测量 Whisper 的零样本性能时，发现它比那些模型更加稳健，并且错误率降低了 50%。

Whisper 支持5种不同的模型尺寸，其中前四种针对英文版本，我们可以先用一段英文版本的语音来测试一下

首先我们安装pytube与whisper，pytube 主要功能是从YouTube上面下载相关视频

然后我们随便找一段英文视频并复制其链接地址，然后插入如下代码

video = https://www.youtube.com/watch?v=-7E-qFI

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

这里简单提一下pytube库，此库可以下载YouTube视频或仅包含声音部分（MP4）的文件

model = whisper.load_model(medium)

text = model.transcribe(11.mp4)

text[text]

I dont know who you are. I dont know what you want. If you are looking for ransom, I can tell you I dont have money. But what I do have are a very particular set of skills. Skills I have acquired over a very long career. Skills that make me a nightmare for people like you.

当然，还有其他支持中文等多个国家和地区官方语言及方言，如德国、意大利等国，可以通过设置相应参数实现不同区域性的语音识别任务。

import ipywidgets as widgets

languages = {af_za: Afrikaans, am_et: Amharic, ar_eg: Arabic, as_in: Assamese, az_az: Azerbaijani, be_by: Belarusian, bg_bg: Bulgarian, bn_in: Bengali}

标签： vivo刚上市的新款手机、一键清除锁屏密码、红米note10 、苹果14手机图片及价格、一加8t

上一篇：家庭生活便捷小型污水处理系统家用节能环保污水净化设备

下一篇：聚乙烯管材PE100级高性能管道材料

中国科技最新消息OpenAI开源99种语言语音识别系统whisper

母亲节的甜蜜时刻

高压变频器设备让人工智能助力您的生产

高压变频器设备的常见故障及排除方法有哪些

送花朵数的深意一束情感的语言

赵奕欢的崛起从零到英雄的逆袭故事