科技造福人类的例子OpenAI开源语音识别系统whisper能识别99种语言

2025-02-23 手机 0

科技进步的奇迹：OpenAI开源语音识别模型Whisper，能识别99种语言

近日，OpenAI公司推出了一个名为Whisper的开源语音识别模型。与DALLE-2和GPT-3不同，这款模型提供免费服务，并且支持多语言输入。

Whisper是一款自动语音识别系统，它通过在网络上收集了680,000小时的多语言数据进行训练。这使得它能够对各种口音、背景噪音以及专业术语都有很好的适应能力。此外，Whisper不仅可以转录多种语言，还能将这些语言翻译成英语。

技术细节显示，Whisper使用的是标准的Transformer架构，这是目前最流行的人工智能框架之一。与其他方法相比，Whisper没有针对特定数据集进行微调，因此它可能不会达到专门针对LibriSpeech等数据集优化后的性能。但是在许多不同的测试中，被发现其表现更加稳定，同时错误率降低了50%。

此外，用户可以选择五种不同的模型尺寸，其中前四个是为了英文版本设计。如果你想要尝试这个功能，只需要安装pytube和whisper库，然后就可以开始操作了。只需复制一段视频链接，然后运行相应代码，就可以下载该视频文件中的音频，并使用whisper来进行自动转录。