2025-02-23 手机 0
科技进步的奇迹:OpenAI开源语音识别模型Whisper,能识别99种语言
近日,OpenAI公司推出了一个名为Whisper的开源语音识别模型。与DALLE-2和GPT-3不同,这款模型提供免费服务,并且支持多语言输入。
Whisper是一款自动语音识别系统,它通过在网络上收集了680,000小时的多语言数据进行训练。这使得它能够对各种口音、背景噪音以及专业术语都有很好的适应能力。此外,Whisper不仅可以转录多种语言,还能将这些语言翻译成英语。
技术细节显示,Whisper使用的是标准的Transformer架构,这是目前最流行的人工智能框架之一。与其他方法相比,Whisper没有针对特定数据集进行微调,因此它可能不会达到专门针对LibriSpeech等数据集优化后的性能。但是在许多不同的测试中,被发现其表现更加稳定,同时错误率降低了50%。
此外,用户可以选择五种不同的模型尺寸,其中前四个是为了英文版本设计。如果你想要尝试这个功能,只需要安装pytube和whisper库,然后就可以开始操作了。只需复制一段视频链接,然后运行相应代码,就可以下载该视频文件中的音频,并使用whisper来进行自动转录。
例如,如果你想用中文版本,你首先要确保你的环境已经安装好相关库:
import whisper
import pytube
然后找到一段中文视频的链接,将其代入代码中执行即可:
video = "https://www.youtube.com/watch?v=-7E-qFI"
data = pytube.YouTube(video)
audio = data.streams.get_audio_only()
audio.download()
下载完成后,你就可以使用whisper来进行中文语音识别并翻译成英文:
model = whisper.load_model("medium")
text = model.transcribe("11.mp4")
print(text)
这样的方式,可以让我们轻松地理解不同国家和地区的声音内容,不仅限于英语,有助于打破语言障碍,加深跨文化交流。
上一篇:祭炼山河颂歌与泪的交响
下一篇:隧道风机高效能通风系统