当前位置: 首页 - 数码 - OpenAI开源的语音识别系统Whisper两位维护者守护多语言智能

OpenAI开源的语音识别系统Whisper两位维护者守护多语言智能

2025-02-23 数码 0

OpenAI 的 Whisper 语音识别模型:两位维护者守护多语言智能

Whisper 是 OpenAI 开源的自动语音识别模型,基于从网络上收集的 680,000 小时多语言数据进行训练。该模型对口音、背景噪音和技术语言具有很好的鲁棒性,并且支持 99 种不同语言的转录和从这些语言到英语的翻译。

Whisper 的 Transformer 框架是一个标准的Transformer 模型框架,可见Transformer 模型在各种任务上的应用之广。在其他现有方法中,通常使用更小、更紧密配对的音频文本训练数据集,或使用广泛但无监督的音频预训练。而 Whisper 在一个庞大而多样的数据集上训练,没有针对任何特定的数据集进行微调,因此它不会击败专门研究 LibriSpeech 性能的模型。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更加稳健,并且错误率降低了 50%。

Whisper 支持5种不同的模型尺寸,其中前四种针对英文版本,我们可以先用一段英文版本的语音来测试一下。首先,我们安装 pytube 与 whisper,然后随便找一段英文视频并复制其链接地址,然后插入代码以下载视频中的音频文件。此外,还简单提到了 pytube 库,可以下载 YouTube 视频与音频文件。

下载完成视频文件后,就可以使用 whisper 模型来进行语声识别任务了。我们加载 medium 大小的人工智能模型,然后将下载后的 MP4 音频文件作为输入,以便 model.transcribe() 函数能够自动识别并打印出识别出来的文本内容。

除了英文字幕,whisper 还能处理其他多种语言,如中文等。如果需要,将中文语音放入代码中,再次运行 transcribe() 函数,便可获取相应结果。此外,还可通过 ipywidgets 显示所有支持语言选项,让用户选择想要转换成哪一种母语或混合母语句子,从而实现跨文化交流功能。

总结来说,OpenAI 开源了名为 Whisper 的高效、开源且免费可用的机器学习系统,它不仅能够理解人类发出的声音,而且还能准确地将这些声音转换成文字,无论是英语还是其他99种不同类型的声音。这使得开发者们能够快速构建新的应用程序,比如生成自动字幕或辅助听力设备,这些都极大地提升了人们之间沟通和交流的情景。

标签: zaker狮子兽太平洋手机礼品掘金