2025-02-23 手机 0
Whisper 是 OpenAI 开源的一款自动语音识别模型,通过训练 680,000 小时多语言数据集来实现。
Whisper 的 Transformer 架构支持 5 种不同的模型尺寸,包括 small、base、medium、large 和 extra-large。
在多样化和鲁棒性方面,Whisper 比较出色,即使在存在口音差异、背景噪声和技术术语的情况下也能准确识别。
Whisper 不仅能够将多种语言转录,还能进行从这些语言到英语的翻译工作。
安装与使用
首先需要安装 pytube 和 git 来获取 OpenAI 的 Whisper 模型:
!pip install --upgrade pytube
!pip install git https://github.com/openai/whisper.git -q
然后可以导入必要的库并加载模型:
import whisper
import pytube
model = whisper.load_model('medium')
文本输出示例:
```python
text = model.transcribe("11.mp4")
print(text)
关于 Whispe r
1.OpenAI 开发了一个名为Whisper的开源自动语音识别系统,该系统基于680,000小时长时间数据集进行训练,使其能够跨越99种不同语言。它不仅能够理解口音差异,而且对各种背景噪声和专业术语都表现出很好的健壮性。该模型采用Transformer架构,并提供五个不同的大小选项,以适应各种需求。
2.Whisper没有针对任何特定数据集微调,因此不会像专门针对LibriSpeech性能优化过得那样高效。但是在许多不同数据集上的零样本测试中,它比那些更小且紧密配对的数据集训练过得模型更加稳定,并且错误率降低了50%。
3.OpenAI还提供了一系列工具,让开发者可以轻松地将Whisper嵌入到他们自己的应用程序中。这意味着无论是想要创建一个简单的小程序还是一个复杂的大型项目,都可以利用这个强大的自然语言处理技术。