2025-02-23 数码 0
,能够识别99种不同语言,并且具有很好的鲁棒性,对口音、背景噪音和技术语言都能准确处理。此外,该模型还支持从这些语言到英语的翻译。Whisper使用了Transformer框架,相比于其他现有方法,它在许多不同的数据集上测量零样本性能时显示出更稳健性,并且错误率降低了50%。
Whisper支持五种不同的模型尺寸,其中前四种针对英文版本,我们可以先用一段英文版本的语音来测试一下。首先我们安装pytube与whisper,然后随便找一段英文的视频并复制其链接地址,插入代码进行下载。代码执行完成后,将自动下载此视频文件的音频文件。
然后,我们可以使用whisper模型来进行语音识别任务。例如,可以选择medium模型,使用model.transcribe(11.mp4)代码即可自动识别并打印出识别出来的txt文本。
除了英文之外,Whisper也能够识别其他多国语言,我们可以通过提供对应语言代码来实现,如af_za(Afrikaans)、am_et(Amharic)等。此外,还可以将中文语音输入到模型中,并翻译成中文。
通过这种方式,不仅能够快速准确地理解不同国家和地区的声音,也能帮助我们更好地了解世界上的各种文化和信息。这对于教育研究、跨文化交流以及日常生活中的沟通都是非常有用的工具。