当前位置: 首页 - 手机 - OpenAI开源的语音识别系统Whisper可识别99种语言

OpenAI开源的语音识别系统Whisper可识别99种语言

2025-02-23 手机 0

OpenAI 最近发布了一个名为 Whisper 的语音识别模型。与 DALLE-2 和 GPT-3 不同,Whisper 是一个免费的开源模型。

Whisper 是一种自动语音识别模型,基于从网络上收集的 680,000 小时多语言数据进行训练。根据 OpenAI 的介绍,该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外,它还支持 99 种不同语言的转录和从这些语言到英语的翻译。

可以看到 Whisper 架构是一个标准的Transformer 模型框架,可见Transformer 模型的应用之广。

其他现有方法经常使用更小、更紧密配对的音频文本训练数据集,或使用广泛但无监督的音频预训练。而 Whisper 是在一个庞大而多样的数据集上训练的,并且没有针对任何特定的数据集进行微调,所以它不会击败专门研究 LibriSpeech 性能的模型。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,发现它比那些模型更加稳健,并且错误率降低了 50%。

Whisper 支持5种不同的模型尺寸,其中前四种针对英文版本,我们可以先用一段英文版本的语音来测试一下

首先我们安装pytube与whisper,pytube 主要功能是从YouTube上面下载相关视频,与whisper共同实现自动化操作

然后我们随便找一段英文视频链接,然后插入如下代码

video = https://www.youtube.com/watch?v=-7E-qFI

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

这里简单提一下pytube库,此库可以下载YouTube视频文件,但我们的主要任务是利用whisper完成语音识别任务

model = whisper.load_model(medium)

text = model.transcribe(11.mp4)

text[text]

从whisper模式可知,其提供了5种不同大小(small, base, small++, medium, large)的预训练参数选择,这些参数会影响最终结果精度

除了支持英文字母外,还能够处理中文及其他非英语声音输入,如需翻译成中文,可以通过以下方式实现:

import ipywidgets as widgets

languages = {af_za: Afrikaans, am_et: Amharic, ar_eg: Arabic...}

此外,对于想要了解更多关于OpenAI及其产品信息的人来说,上述内容已经提供了一些基础知识。但若想深入探索其最新动态或详细解释其背后的技术细节,则需要进一步查看OpenAI官方网站或相关专业资料。这不仅能帮助你掌握更多技能,而且也将使你成为新科技潮流的一部分。

标签: oppo性价比最高的手机vivo最新发布手机oppo翻盖手机2023年新款手机有哪些手机发布会