当前位置：首页 - 手机 - OpenAI开源的语音识别系统Whisper可识别99种语言

OpenAI开源的语音识别系统Whisper可识别99种语言

2025-02-23 手机 0

OpenAI 最近发布了一个名为 Whisper 的语音识别模型。与 DALLE-2 和 GPT-3 不同，Whisper 是一个免费的开源模型。

Whisper 是一种自动语音识别模型，基于从网络上收集的 680,000 小时多语言数据进行训练。根据 OpenAI 的介绍，该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外，它还支持 99 种不同语言的转录和从这些语言到英语的翻译。

可以看到 Whisper 架构是一个标准的Transformer 模型框架，可见Transformer 模型的应用之广。

其他现有方法经常使用更小、更紧密配对的音频文本训练数据集，或使用广泛但无监督的音频预训练。而 Whisper 是在一个庞大而多样的数据集上训练的，并且没有针对任何特定的数据集进行微调，所以它不会击败专门研究 LibriSpeech 性能的模型。然而，当我们在许多不同的数据集上测量 Whisper 的零样本性能时，发现它比那些模型更加稳健，并且错误率降低了 50%。

Whisper 支持5种不同的模型尺寸，其中前四种针对英文版本，我们可以先用一段英文版本的语音来测试一下

首先我们安装pytube与whisper，pytube 主要功能是从YouTube上面下载相关视频，与whisper共同实现自动化操作

然后我们随便找一段英文视频链接，然后插入如下代码

video = https://www.youtube.com/watch?v=-7E-qFI

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

这里简单提一下pytube库，此库可以下载YouTube视频文件，但我们的主要任务是利用whisper完成语音识别任务

model = whisper.load_model(medium)

text = model.transcribe(11.mp4)

text[text]

从whisper模式可知，其提供了5种不同大小（small, base, small++, medium, large）的预训练参数选择，这些参数会影响最终结果精度

除了支持英文字母外，还能够处理中文及其他非英语声音输入，如需翻译成中文，可以通过以下方式实现：

import ipywidgets as widgets

languages = {af_za: Afrikaans, am_et: Amharic, ar_eg: Arabic...}

此外，对于想要了解更多关于OpenAI及其产品信息的人来说，上述内容已经提供了一些基础知识。但若想深入探索其最新动态或详细解释其背后的技术细节，则需要进一步查看OpenAI官方网站或相关专业资料。这不仅能帮助你掌握更多技能，而且也将使你成为新科技潮流的一部分。

标签： oppo性价比最高的手机、 vivo最新发布手机、 oppo翻盖手机、 2023年新款手机有哪些、手机发布会

上一篇：警察故事2英雄本色续章

下一篇：工业污水处理流程中哪些环节对环境影响最大

相关推荐

推荐资讯

热门文章