重庆科技馆展示OpenAI开源的多语言语音识别系统whisper

2025-02-23 数码 0

，能够识别99种不同语言，并且具有很好的鲁棒性，对口音、背景噪音和技术语言都能准确处理。此外，该模型还支持从这些语言到英语的翻译。Whisper使用了Transformer框架，相比于其他现有方法，它在许多不同的数据集上测量零样本性能时显示出更稳健性，并且错误率降低了50%。

Whisper支持五种不同的模型尺寸，其中前四种针对英文版本，我们可以先用一段英文版本的语音来测试一下。首先我们安装pytube与whisper，然后随便找一段英文的视频并复制其链接地址，插入代码进行下载。代码执行完成后，将自动下载此视频文件的音频文件。

然后，我们可以使用whisper模型来进行语音识别任务。例如，可以选择medium模型，使用model.transcribe(11.mp4)代码即可自动识别并打印出识别出来的txt文本。

除了英文之外，Whisper也能够识别其他多国语言，我们可以通过提供对应语言代码来实现，如af_za（Afrikaans）、am_et（Amharic）等。此外，还可以将中文语音输入到模型中，并翻译成中文。

通过这种方式，不仅能够快速准确地理解不同国家和地区的声音，也能帮助我们更好地了解世界上的各种文化和信息。这对于教育研究、跨文化交流以及日常生活中的沟通都是非常有用的工具。

标签：狄安娜兽、徐家汇太平洋数码广场招商、附近的数码电子商城、数码宝贝宇宙应用怪兽、 2022年性价比最高的手机排行