OpenAI开源的语音识别系统Whisper两位维护者守护多语言智能

2025-02-23 数码 0

OpenAI 的 Whisper 语音识别模型：两位维护者守护多语言智能

Whisper 是 OpenAI 开源的自动语音识别模型，基于从网络上收集的 680,000 小时多语言数据进行训练。该模型对口音、背景噪音和技术语言具有很好的鲁棒性，并且支持 99 种不同语言的转录和从这些语言到英语的翻译。

Whisper 的 Transformer 框架是一个标准的Transformer 模型框架，可见Transformer 模型在各种任务上的应用之广。在其他现有方法中，通常使用更小、更紧密配对的音频文本训练数据集，或使用广泛但无监督的音频预训练。而 Whisper 在一个庞大而多样的数据集上训练，没有针对任何特定的数据集进行微调，因此它不会击败专门研究 LibriSpeech 性能的模型。然而，当我们在许多不同的数据集上测量 Whisper 的零样本性能时，我们发现它比那些模型更加稳健，并且错误率降低了 50%。

Whisper 支持5种不同的模型尺寸，其中前四种针对英文版本，我们可以先用一段英文版本的语音来测试一下。首先，我们安装 pytube 与 whisper，然后随便找一段英文视频并复制其链接地址，然后插入代码以下载视频中的音频文件。此外，还简单提到了 pytube 库，可以下载 YouTube 视频与音频文件。

下载完成视频文件后，就可以使用 whisper 模型来进行语声识别任务了。我们加载 medium 大小的人工智能模型，然后将下载后的 MP4 音频文件作为输入，以便 model.transcribe() 函数能够自动识别并打印出识别出来的文本内容。

除了英文字幕，whisper 还能处理其他多种语言，如中文等。如果需要，将中文语音放入代码中，再次运行 transcribe() 函数，便可获取相应结果。此外，还可通过 ipywidgets 显示所有支持语言选项，让用户选择想要转换成哪一种母语或混合母语句子，从而实现跨文化交流功能。

总结来说，OpenAI 开源了名为 Whisper 的高效、开源且免费可用的机器学习系统，它不仅能够理解人类发出的声音，而且还能准确地将这些声音转换成文字，无论是英语还是其他99种不同类型的声音。这使得开发者们能够快速构建新的应用程序，比如生成自动字幕或辅助听力设备，这些都极大地提升了人们之间沟通和交流的情景。

标签： zaker 、狮子兽、太平洋手机、礼品、掘金

上一篇：生活废水处理设备绿色解决家庭污水问题的高效选择

下一篇：压缩机工作原理探究从热力学基础到现代应用技术

OpenAI开源的语音识别系统Whisper两位维护者守护多语言智能

源自地球归于地球关于溴化锂冷水机的循环利用问题

新兴技术如何改善冷卻泵性能

屠宰设备剖析现代畜牧业的杀手锏与未来趋势

液力耦合器高效能机械传动系统组件

清澈之源的修复水脉之歌