当前位置: 首页 - 数码 - 国家科技成果网官网如同开启了语音魔法之门新推出的OpenAI Whisper系统以其近乎神奇的英文识

国家科技成果网官网如同开启了语音魔法之门新推出的OpenAI Whisper系统以其近乎神奇的英文识

2025-03-15 数码 0

9月21日,OpenAI 推出了名为「Whisper」的新一代自动语音识别(ASR)系统,该系统据称在英语语音识别方面的性能已经达到了人类水平的高标准。该系统是通过训练于来自网络上68万小时的多样化数据集而成,其中包括丰富的多语言和多任务监督数据。

研究团队在训练过程中发现,使用如此庞大的数据集可以显著提高对不同口音、背景噪音以及专业术语等复杂环境因素的适应能力。事实上,有研究表明,无监督预训练能够大幅提升音频编码器的质量,但缺乏同等质量级别的大规模预训练数据以及特定微调策略会限制模型的普适性和稳定性。而部分有监督方式下预先训练好的语音识别模型则表现出更强的一般化能力。

在「Whisper」项目中,OpenAI 利用比现有高质量数据集还要庞大的新型数据源,将弱监督下的语音识别技术量级扩展至68万小时,并且展示了这样的规模下所训练出的模型能有效地迁移到其他现有的数据集上,而无需进行任何针对性的微调,这样的设计理念旨在实现更通用的、高效率的人工智能解决方案。

此外,此举也得到了前特斯拉人工智能与自动驾驶部门负责人 Andrej Karpathy 的肯定,他表示“OpenAI 正处于最佳状态”。然而,不少用户仍旧持怀疑态度,如网友 Vincent Lordier 提出了关于是否存在类似GPT-3和Dalle-2中的言论审查问题,以及是否可能出现 Whisper 编辑或删除用户声音的情况。

随着这项技术不断进步,我们期待看到更多关于其应用效果和潜力的讨论。

标签: 916主控资料数码之家数码产品店铺图片数码的概念中关村手机参数对比大全电脑是数码产品吗