当前位置: 首页 - 手机 - OpenAI开源的语音识别系统whisper综合国力的新纪元

OpenAI开源的语音识别系统whisper综合国力的新纪元

2025-02-23 手机 0

OpenAI 的 Whisper 语音识别模型:综合国力的新纪元

Whisper 是 OpenAI 最近发布的一个免费开源的自动语音识别模型,它基于网络上收集的 680,000 小时多语言数据进行训练。该模型对口音、背景噪音和技术语言具有很好的鲁棒性,并且支持 99 种不同语言的转录和从这些语言到英语的翻译。

Whisper 使用的是一个标准的Transformer框架,展示了Transformer 模型在应用上的广泛性。与其他现有方法相比,Whisper 在没有针对任何特定的数据集进行微调的情况下,其零样本性能更为稳健,并且错误率降低了50%。

Whisper 支持5种不同的模型尺寸,其中前四种是针对英文版本。在这篇文章中,我们将使用一种名为pytube 的库来下载一段英文视频文件,然后使用whisper来测试其性能。

首先,我们需要安装pytube 和whisper。这可以通过以下命令完成:

!pip install --upgrade pytube

!pip install git https://github.com/openai/whisper.git –q

然后我们可以编写以下代码来下载视频并使用whisper 进行语音识别:

import whisper

import pytube

video = "https://www.youtube.com/watch?v=-7E-qFI"

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

model = whisper.load_model("medium")

text = model.transcribe(audio.file_path)

print(text)

这个代码将会下载一段视频文件,并使用中等大小的whisper 模型来进行语音识别。输出结果将是该视频中的文字内容。

此外,Whisper 还可以用于其他任务,如非英文语音的识别和翻译。在实际应用中,这意味着它能够帮助开发者构建出色的跨语言聊天机器人、声波转文本服务以及各种基于声音输入的人工智能系统。此外,由于其开放源代码属性,该模型还可能被用作教育工具,以教授深度学习和自然语言处理课程。

标签: 2021最新款畅销手机新款手机哪款性价比高vivo性价比最高的手机手机图片大全 壁纸最新上市手机