手抄报OpenAI开源的多语言语音识别系统whisper

2025-02-23 手机 0

🔍 Whisper 介绍

Whisper 是 OpenAI 开发的一款免费、开源的自动语音识别模型。它基于网络上收集的大量数据进行训练，涵盖了 99 种不同的语言。Whisper 具有很强的鲁棒性，可以处理不同口音和背景噪音，并且对技术术语也表现出色。此外，它还支持将这些语言转录成英语，并提供从这些语言到英语的翻译服务。

💻 Whisper 架构

Whisper 的架构采用了标准的 Transformer 模型框架。这表明 Transformer 模型在多种应用中的普遍适用性。

🎯 对比现有方法

与其他常见方法使用较小、紧密配对的音频文本数据集或广泛但无监督的预训练策略不同，Whisper 在一个庞大而多样化的数据集上进行了训练，而没有针对任何特定数据集进行微调。因此，它可能不会超越专门研究 LibriSpeech 性能模型。但当我们在许多不同的数据集上测试 Whisper 的零样本性能时，我们发现它比那些模型更加稳定，而且错误率降低了 50%。

📈 支持5种模型尺寸

Whisper 提供五种不同的模型尺寸，其中前四种是为英文版本设计。在这篇文章中，我们将首先使用英文版本来测试一下这个功能。

⬇️ 安装必要库

为了使用 Whisper，我们需要安装 pytube 和 whisper 库。

!pip install --upgrade pytube

!pip install git https://github.com/openai/whisper.git –q

💡 使用代码示例

首先，安装完成后，我们可以通过以下代码下载一段视频并提取其声音部分：

import whisper

video = "https://www.youtube.com/watch?v=-7E-qFI"

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

然后我们可以使用以下代码加载 medium 大小（Medium）的 Whisper 模型并进行转录：

model = whisper.load_model("medium")

text = model.transcribe("11.mp4")

print(text)

以上就是关于 OpenAI 开源多语言语音识别系统 Whisper 的基本信息和如何使用该系统进行简单操作。如果你想要更深入地了解这个工具或者尝试更多复杂任务，请继续阅读相关教程和文档。

标签：输手机号就能查到对方的位置吗、 vivox80 、 vivi手机、手机凤凰网、女子称小米手机凌晨充电时爆炸

上一篇：工业干燥设备精确控制水分保障产品质量

下一篇：法兰弯头管件生产厂家我来告诉你我们的弯道超人故事

手抄报OpenAI开源的多语言语音识别系统whisper

我是机器人来点超实用的喷漆技巧吧

一部可以用来摔的手机 Moto X 极深度评测

塑料排水板的应用与维护实用指南

我应该自己动手还是委托专业人士来完成我的二手房屋的翻新工作

梦境居所温馨主卧室装修故事

手抄报OpenAI开源的多语言语音识别系统whisper

我是机器人来点超实用的喷漆技巧吧

一部可以用来摔的手机 Moto X 极 深度评测

塑料排水板的应用与维护实用指南

我应该自己动手还是委托专业人士来完成我的二手房屋的翻新工作

梦境居所温馨主卧室装修故事

一部可以用来摔的手机 Moto X 极深度评测