OpenAI开源的语音识别系统Whisper能识别99种语言

2025-02-23 数码 0

OpenAI 的 Whisper 语音识别模型：跨语言智能转录与翻译

Whisper 是 OpenAI 开源的自动语音识别模型，基于网络上共计 680,000 小时多语言数据进行训练。该模型展现出对口音、背景噪音和专业术语的极佳鲁棒性，并支持 99 种不同语言的转录以及从这些语言到英语的翻译。

Whisper 的架构采用了标准的Transformer框架，这种框架在自然语言处理任务中表现卓越。与其他方法相比，Whisper 在一个庞大而多样化的数据集上进行了训练，而不是专门针对某个特定数据集微调，因此它可能不会达到那些专门研究 LibriSpeech 性能模型所能达到的性能峰值。但是，在许多不同的数据集上测量 Whisper 的零样本性能时，我们发现它比那些模型更加稳定，并且错误率下降了近 50%。

Whisper 支持五种不同的模型尺寸，其中前四种为英文版本。这使得用户能够根据自己的需求选择合适大小的模型来进行测试。此外，尽管 Whisper 主要用于英文，但其跨语言能力使其成为一种强大的工具，可以应用于全球范围内各种多语言环境中的情境。

为了体验 Whisper 模型，我们可以使用 Python 将其整合到我们的项目中。首先，我们需要安装必要的库，然后使用 pytube 下载一段视频并提取其中的声音部分，再将声音文件输入到 Whisper 模型中以获得文本输出。例如，如果我们下载了一段中文视频并将其作为输入给予 Whisper 模型，那么该模型不仅会识别出中文语音，还可以将其翻译成英文或其他目标语言。