OpenAI 的新语音系统Whisper如同魔法师般的耳朵能够将英文的声音转化为文字其识别能力仿佛达

2025-03-15 数码 0

9月21日，OpenAI 推出了名为「Whisper」的先进神经网络技术，这项技术在英语语音识别方面达到了令人瞩目的成就，其准确性和鲁棒性接近人类水平。这个「Whisper」系统是一款自动语音识别（ASR）工具，它的训练过程中使用了来自互联网的68万小时多样化数据集。这份庞大的数据集使得该系统能够更好地应对不同口音、背景噪音以及专业术语等挑战。

此前研究表明，无监督预训练可以显著提升音频编码器的性能，但由于缺乏高质量的预训练数据和特定的微调策略，这种方法在一定程度上限制了模型的有效性和鲁棒性。而部分有监督预训练语音识别系统则表现出更高的鲁棒性。

在「Whisper」的开发中，OpenAI 使用了远超过现有高质量数据集总和数量级的大量新数据进行弱监督语音识别，并成功扩展到68万小时。此外，该团队还展示了一种规模较大时模型可以实现无需特定于某个数据集微调即可获得高质量结果的方式。

Andrej Karpathy，曾任特斯拉人工智能与自动驾驶部门负责人，也通过转发消息表示 OpenAI 正处于其最佳状态。然而，有用户仍对 Whisper 的应用持有疑虑，如网友 Vincent Lordier 提出的关于是否会出现类似 GTP-3 和 Dalle-2 中言论禁止行为的问题，以及是否可能出现编辑或删除用户录制的声音的情况。

这引发了公众对于 Whisper 技术潜在应用及其影响力的讨论。随着技术不断发展，我们期待看到未来如何处理这些复杂问题，并探索更多可能性的领域参考链接：https://openai.com/blog/whisper/

标签：华为nova 、生活、究极进化官方下载、数码测评、苹果11

上一篇：高效液相分离分子筼觃的核心作用

下一篇：空调散热器铜铝分离机我的夏日解答

OpenAI 的新语音系统Whisper如同魔法师般的耳朵能够将英文的声音转化为文字其识别能力仿佛达

环境因素如何影响木材的使用寿命和外观变化例如潮湿环境对实木有什么影响吗

茶馆装修设计-沉香木桌椅与竹影灯光创意茶馆的温馨私密空间

绿色建材选用指南中空玻璃的可持续优势解析

在开始拆除之前需要考虑哪些因素

书桌的秘密高度之谜