当前位置: 首页 - 手机 - 科技造福人类的例子OpenAI开源语音识别系统whisper能识别99种语言

科技造福人类的例子OpenAI开源语音识别系统whisper能识别99种语言

2025-02-23 手机 0

科技进步的奇迹:OpenAI开源语音识别模型Whisper,能识别99种语言

近日,OpenAI公司推出了一个名为Whisper的开源语音识别模型。与DALLE-2和GPT-3不同,这款模型提供免费服务,并且支持多语言输入。

Whisper是一款自动语音识别系统,它通过在网络上收集了680,000小时的多语言数据进行训练。这使得它能够对各种口音、背景噪音以及专业术语都有很好的适应能力。此外,Whisper不仅可以转录多种语言,还能将这些语言翻译成英语。

技术细节显示,Whisper使用的是标准的Transformer架构,这是目前最流行的人工智能框架之一。与其他方法相比,Whisper没有针对特定数据集进行微调,因此它可能不会达到专门针对LibriSpeech等数据集优化后的性能。但是在许多不同的测试中,被发现其表现更加稳定,同时错误率降低了50%。

此外,用户可以选择五种不同的模型尺寸,其中前四个是为了英文版本设计。如果你想要尝试这个功能,只需要安装pytube和whisper库,然后就可以开始操作了。只需复制一段视频链接,然后运行相应代码,就可以下载该视频文件中的音频,并使用whisper来进行自动转录。

例如,如果你想用中文版本,你首先要确保你的环境已经安装好相关库:

import whisper

import pytube

然后找到一段中文视频的链接,将其代入代码中执行即可:

video = "https://www.youtube.com/watch?v=-7E-qFI"

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

下载完成后,你就可以使用whisper来进行中文语音识别并翻译成英文:

model = whisper.load_model("medium")

text = model.transcribe("11.mp4")

print(text)

这样的方式,可以让我们轻松地理解不同国家和地区的声音内容,不仅限于英语,有助于打破语言障碍,加深跨文化交流。

标签: 苹果14最新消息诺基亚n95智能手机的特点和功能全国手机排名前十名lumia