当前位置: 首页 - 手机 - 科技与未来绘画图片OpenAI开源语音识别系统Whisper能识别99种语言

科技与未来绘画图片OpenAI开源语音识别系统Whisper能识别99种语言

2025-02-23 手机 0

近日,OpenAI推出了名为Whisper的开源语音识别模型,这款模型在多语言数据集上进行了训练,能够对口音、背景噪音和技术术语具有很好的鲁棒性,并支持99种不同语言的转录和从这些语言到英语的翻译。

Whisper使用了Transformer框架,这是目前最先进的人工智能模型架构之一。尽管没有针对任何特定数据集进行微调,但在许多不同的数据集上测量零样本性能时,发现它比那些专门研究LibriSpeech性能的模型更加稳健,并且错误率降低了50%。

此外,Whisper支持五种不同的模型尺寸,其中前四种针对英文版本。用户可以根据需要选择合适的模型尺寸来进行测试。

为了使用Whisper,我们首先需要安装pytube和whisper库,然后我们可以下载一段英文视频并将其链接插入代码中。代码执行完成后,将自动下载视频文件中的音频文件,以MP4格式保存,只包含声音部分。

如果想要下载完整视频,可以使用pytube库筛选出720p等不同分辨率配置文件,然后选择合适的一项进行下载。在这之后,我们就可以使用whisper加载一个medium大小的模型来进行语音识别任务。通过model.transcribe(11.mp4)命令,该模型能够自动识别并打印出识别结果文本。

除了英文,还有其他多个语言也被纳入该系统以供检测,比如中文、法文、西班牙文等。此外,由于其跨语言功能,该系统还提供了一系列翻译服务,使得用户不仅能够理解各种方言,更能准确地把握每一种方言背后的含义,从而使整个交流过程更加高效无缝。

总之,OpenAI Whisper是一个强大的工具,不仅对于开发者来说非常实用,也为普通用户提供了一个简单易用的平台去探索世界上的各色方言文化,同时提升我们的沟通能力。

标签: 华为折叠手机2023新款价格华为nova102023即将发布的新手机2000元左右手机排行榜前十名iqoo neo7