2025-02-23 手机 0
OpenAI 的 Whisper 语音识别模型:综合国力的新纪元
Whisper 是 OpenAI 最近发布的一个免费开源的自动语音识别模型,它基于网络上收集的 680,000 小时多语言数据进行训练。该模型对口音、背景噪音和技术语言具有很好的鲁棒性,并且支持 99 种不同语言的转录和从这些语言到英语的翻译。
Whisper 使用的是一个标准的Transformer框架,展示了Transformer 模型在应用上的广泛性。与其他现有方法相比,Whisper 在没有针对任何特定的数据集进行微调的情况下,其零样本性能更为稳健,并且错误率降低了50%。
Whisper 支持5种不同的模型尺寸,其中前四种是针对英文版本。在这篇文章中,我们将使用一种名为pytube 的库来下载一段英文视频文件,然后使用whisper来测试其性能。
首先,我们需要安装pytube 和whisper。这可以通过以下命令完成:
!pip install --upgrade pytube
!pip install git https://github.com/openai/whisper.git –q
然后我们可以编写以下代码来下载视频并使用whisper 进行语音识别:
import whisper
import pytube
video = "https://www.youtube.com/watch?v=-7E-qFI"
data = pytube.YouTube(video)
audio = data.streams.get_audio_only()
audio.download()
model = whisper.load_model("medium")
text = model.transcribe(audio.file_path)
print(text)
这个代码将会下载一段视频文件,并使用中等大小的whisper 模型来进行语音识别。输出结果将是该视频中的文字内容。
此外,Whisper 还可以用于其他任务,如非英文语音的识别和翻译。在实际应用中,这意味着它能够帮助开发者构建出色的跨语言聊天机器人、声波转文本服务以及各种基于声音输入的人工智能系统。此外,由于其开放源代码属性,该模型还可能被用作教育工具,以教授深度学习和自然语言处理课程。