当前位置: 首页 - 手机 - 网络科技有限公司采用OpenAI开源的whisper语音识别系统实现了对99种语言的识别能力

网络科技有限公司采用OpenAI开源的whisper语音识别系统实现了对99种语言的识别能力

2025-02-23 手机 0

网络科技有限公司采用OpenAI开源的whisper语音识别模型,实现了对99种语言的识别能力。Whisper是一个自动语音识别模型,基于从网络上收集的680,000小时多语言数据进行训练。该模型具有很好的鲁棒性,对口音、背景噪音和技术语言都有很好地适应。此外,它还支持99种不同语言的转录和从这些语言到英语的翻译。

Whisper架构是一个标准的Transformer模型框架,可见Transformer模型在应用领域之广。其他现有的方法常常使用更小、更紧密配对的声音文本训练数据集,或使用广泛但无监督的声音预训练。而Whisper是在一个庞大而多样的数据集上训练,并且没有针对任何特定的数据集进行微调,所以它不会击败专门研究LibriSpeech性能的模型。然而,当我们在许多不同的数据集中测量Whisper零样本性能时,我们发现它比那些模型更加稳健,并且错误率降低了50%。

Whisper支持5种不同的模式尺寸,其中前四种是针对英文版本,我们可以先用一段英文版本的语音来测试一下。在实际操作中,我们首先安装pytube与whisper,然后随便找一段英文视频并复制其链接地址,然后插入相应代码下载视频文件中的音频文件。

下载完成后,就可以使用whisper模型来进行语音识别任务了。我们可以选择五种不同的模式尺寸,然后把我们下载的音频文件直接使用model.transcribe(audio_file)代码,模块就会自动识别并打印出识别出来的文本。如果需要,可以将中文语音识别完成后,再翻译成中文。

此外,为了提高用户体验,可以通过ipywidgets库创建一个交互式界面,让用户选择想要翻译或听取哪一种语言。这不仅方便用户,而且也使得整个过程更加直观易懂。此外,还可以提供一个比较分析表格,将不同语言下的精度进行对比,为用户提供更多信息和参考依据。

标签: oppoa8华为最新款懂行的人建议买华为哪个系列口碑最好的国产手机vivo清除数据仍然要密码怎么办