OpenAI新语音系统Whisper其英文识别能力如同综合国力一般接近人类的巅峰

2025-03-15 数码 0

9月21日，OpenAI 推出了名为「Whisper」的先进神经网络技术，这项技术在英语语音识别方面达到了人类水平的性能。该系统是一个自动语音识别（ASR）模型，它通过利用了来自互联网的68万小时多语言和多任务监督数据进行训练。

研究人员发现，使用如此庞大且多样化的数据集可以显著提高对口音、背景噪声和专业术语等因素的适应能力。在之前的一些研究中，有人证明虽然无监督预训练能够显著提升音频编码器的质量，但由于缺乏同等质量的大规模预训练数据以及特定于小型数据集微调协议，这限制了模型的有效性和鲁棒性。而有监督方式预训练语音识别系统则表现出更高的鲁棒性。

在「Whisper」项目中，OpenAI 利用一个远超过现有高质量数据集总和数量级的大量弱监督语音识别数据进行了扩展，并展示了在这种规模下所训练模型能够在转移到现有较小数据集时实现零误差，从而消除了任何特定于微调过程中的影响，以达到高效结果。前特斯拉人工智能与自动驾驶部门负责人Andrej Karpathy也对这一成果表示赞赏，将其描述为“OpenAI 正处于最强大的状态”。

然而，对于使用「Whisper」的人来说，还存在一些疑虑。例如，一位网友Vincent Lordier提问：“考虑到GPT-3 和 Dalle-2 中曾出现过相关言论内容管理的问题，我们是否会遇到类似的问题？是否会发生用户录制的声音被编辑或删除？”因此，对此问题人们持不同的看法。

参考链接：https://openai.com/blog/whisper/

标签：广州天气、 it 、数码兽大冒险、数码宝贝之我是数码兽、中关村数码商城

上一篇：OpenAI新语音系统Whisper仿佛一位和平精英免费开启科技软件的智慧守护者英文识别能力如同人类

下一篇：精密分析化工测量计量仪器的应用与发展

OpenAI新语音系统Whisper其英文识别能力如同综合国力一般接近人类的巅峰

小空间大气派6平米卧室改造精致简装案例现代简约风格家具布局

家居美学轻巧时尚的客厅设计灵感

政府采购新篇章招标投标法实施条例解读与实践

风险管理在建设工程项目中的重要性

三人轮流舔下班一段神秘的午后故事