五年级科技小制作大全最简单代码实战OpenAI开源的能识别99种语言的语音识别系统whisper

2025-02-23 手机 0

五年级科技小制作大全最简单：OpenAI Whisper 语音识别模型实战

在本次科技小制作中，我们将引入OpenAI开源的Whisper语言识别模型，一个能够识别99种不同语言的自动语音识别系统。与DALLE-2和GPT-3不同，Whisper是一个免费且开源的模型，这使得它成为了学习编程和自然语言处理技术的小伙伴们非常好的选择。

首先，让我们了解一下什么是Whisper。Whisper是一个基于网络上收集的680,000小时多语言数据训练出来的自动语音识别模型。它对口音、背景噪音以及技术性较强的话题都有很好的鲁棒性，并且支持从这些不同的语言转录并翻译成英语。

接下来，我们来看看Whisper使用的是哪一种Transformer框架。这是一个标准的Transformer模型框架，可以看出Transformer在各种应用中的广泛应用。而其他现有的方法通常使用更小，更紧密匹配的声音文本训练数据集，或使用广泛但无监督的预训练，但Whisper是在一个庞大而多样化的大型数据集上进行训练，没有针对特定数据集进行微调，因此它不会像专门研究LibriSpeech性能的模型那样表现好。但当我们在许多不同的数据集中测量了Zero-shot性能时，我们发现其比那些模型更加稳定，错误率下降了50%。

此外，Whisper支持5种不同的模型尺寸，其中前四个是为英文版本设计。如果你想要尝试这个功能，你可以通过以下命令安装必要库：