当前位置: 首页 - 数码 - 中国科学技术协会点燃智慧之火OpenAI的新语音系统Whisper如同天才匠人倾听世界每一个细微声音

中国科学技术协会点燃智慧之火OpenAI的新语音系统Whisper如同天才匠人倾听世界每一个细微声音

2025-03-15 数码 0

9月21日,OpenAI 推出了名为「Whisper」的先进神经网络技术,这项技术在英语语音识别方面达到了令人瞩目的成就,其准确性和鲁棒性接近人类水平。这个「Whisper」系统是一款自动语音识别(ASR)工具,它的训练过程依赖于一个庞大的数据集,包含了来自网路上68万小时的多语言和多任务监督信息。

通过这样的训练方法,研究人员发现使用大量且多样化的数据可以显著提高模型对口音、背景噪声以及专业术语等因素的适应能力。这与之前关于无监督预训练能够显著提升音频编码器性能,但由于缺乏高质量数据集限制其有效性的观点形成鲜明对比。在部分有监督预训练的情形下,该系统表现出更强的鲁棒性。

值得一提的是,在「Whisper」项目中,OpenAI 利用远超过现有高质量数据集总和数倍的大量新数据进行了扩展,并将弱监督语音识别规模扩大至68万小时。此外,该团队还展示了在这种规模下所训练出的模型能在转移给现有数据集时保持零误差,从而消除了特定于微调协议带来的影响,从而实现更加优质的结果。

此事也引起了一些关注。前特斯拉人工智能和自动驾驶部门负责人 Andrej Karpathy 在推特上分享了这一消息,并称“OpenAI 正处于最佳状态”。然而,有用户如Vincent Lordier仍然持保留态度,他提出:“考虑到GPT-3和Dalle-2中出现过言论控制问题,我们是否也会遇到类似的问题?是否会出现编辑或删除用户声音的情况?”这样的疑虑让人们开始思考有关隐私保护与技术发展之间平衡的问题。

随着这项技术不断进步,我们不得不深入思考其应用可能带来的社会影响,以及如何确保这些创新科技不会被滥用。而对于「Whisper」,它不仅是机器学习领域的一次重大突破,也是一个我们需要进一步探讨的话题。

标签: 数码资源网官网媒介机锋网究极数码兽进化下载数码之家