当前位置: 首页 - 数码 - 省科技厅如同开启神秘之门引领我们走进OpenAI新语音系统Whisper的世界这个能够近似人类水平的

省科技厅如同开启神秘之门引领我们走进OpenAI新语音系统Whisper的世界这个能够近似人类水平的

2025-03-15 数码 0

9月21日,OpenAI 推出了名为「Whisper」的新技术,这一神经网络在英语语音识别方面的性能已达到了接近人类水平的标准。该系统是一款自动语音识别(ASR)工具,由研究团队利用来自网路的68万小时多样化数据进行训练。

在训练过程中,研究人员发现使用如此庞大且多样化的数据集能够显著提高模型对口音、背景噪音以及专业术语等因素的适应能力。这与之前的一些研究相符,其中表明无监督预训练可以极大地提升音频编码器质量,但由于缺乏高质量同等规模的预训练和特定于数据集微调协议,其有效性和鲁棒性仍有所限制。而部分有监督方式下预先训练语言模型则表现出更好的适应性。

在「Whisper」中,OpenAI 通过扩展弱监督语音识别到68万小时,并展示了在这种规模下训练出的模型能以零射击准确转移现有的数据集,从而实现高质量结果,而不受特定于某个数据集微调影响。此外,有前特斯拉人工智能部门负责人Andrej Karpathy表示“OpenAI 正处于最佳状态”。

然而,对于「Whisper」的使用,也有人持怀疑态度。例如,一位网友Vincent Lordier提问,“考虑到GPT-3和Dalle-2出现过言论管理问题,在使用‘Whisper’时是否也会存在类似问题?是否会发生用户录制内容被编辑或删除的情况?”这个话题引起了广泛讨论。

标签: 小米12ssmzdm计算机中数码的概念电子数码产品佳能5d