创新如同引领发展的第一马车OpenAI 的新语音系统 Whisper 正在以其近乎人类水平的英文识别

2025-03-15 数码 0

作者：黄楠

编辑：陈彩娴

2023年9月21日，OpenAI推出了名为“Whisper”的新型神经网络系统，这项技术在英语语音识别领域已经达到了人类水平的性能。该系统是一个自动语音识别（ASR）模型，其训练过程采用了来自网络上共68万小时的多语言和多任务数据集。

通过使用如此庞大的数据集，研究人员发现这一方法能够显著提高对口音、背景噪声以及专业术语等复杂因素的适应性。事实上，之前的研究表明，无监督预训练可以极大提升音频编码器的质量，但由于缺乏高质量同类数据和特定的微调策略，它们在实际应用中的效率和稳定性仍有所不足。而部分有监督预训练的语音识别系统则表现出更好的鲁棒性。

在Whisper中，OpenAI以远超过现有高质量数据集总和数倍的大规模弱监督语音识别数据进行了扩展，并展示了即便是在这种规模下，如果模型能成功地迁移至现有数据集，则无需特定于某个数据集的手动微调，就能获得高标准结果。此举不仅突破了传统方法，而且为后续发展奠定了坚实基础。

此消息也得到了前特斯拉人工智能与自动驾驶部门负责人的Andrej Karpathy赞扬，他称OpenAI正处于最佳状态。不过，对于Whisper系统的一些潜在用户来说，他们还是存在一些疑虑。例如，一位网友Vincent Lordier提出：“考虑到GPT-3和Dalle-2曾出现过相关言论限制的情况，我们是否也会遇到类似的问题？是否会出现对用户上传的声音进行编辑或删除的情况？”

因此，这一技术发布引发了一系列讨论。在这个不断变化且充满未知面的科技时代，我们如何看待这类先进技术，以及它们可能带来的影响？我们期待着更多关于这些问题的讨论与分享。

参考链接：https://openai.com/blog/whisper/

标签：数码宝贝新世纪强度排行、密涅瓦兽、进制转换、修女兽、华为p10

上一篇：OpenAI新语音系统Whisper仿佛拥有人类级别的英文识别能力让论文研究者如获宝贵之财

下一篇：环保喷漆房建设规范与管理标准

创新如同引领发展的第一马车OpenAI 的新语音系统 Whisper 正在以其近乎人类水平的英文识别

深圳信息职业技术学院构建未来科技人才培养模式的创新实验地

探索未来可穿戴医疗设备产品的创新与应用前景

部队士官述职报告撰写指南

智能穿越无线可穿戴设备的未来科技探索

电视剧锦鲤是个技术活探索科技与人情的交融