科技流学霸的语音系统Whisper像人类一样聆听世界的声音

2025-03-15 数码 0

9月21日，OpenAI 推出了名为「Whisper」的新技术，这是一种使用了68万小时的多语音和多任务监督数据训练的自动语音识别系统。据称，它在英语语音识别方面达到了接近人类水平的性能。

「Whisper」通过利用一个庞大的数据集进行训练，能够更好地应对口音、背景噪声和专业术语等挑战。这不同于之前的一些研究方法，其中虽然无监督预训练可以显著提高模型质量，但由于缺乏高质量的预训练数据以及特定于某个数据集的微调协议，因此其有效性和鲁棒性受到限制。而部分有监督方式预训练的语音识别系统则表现出更高的鲁棒性。

在「Whisper」的开发中，OpenAI 使用了比现有高质量数据集总和大几倍的大量弱监督语音识别数据，并且展示了在这种规模下，可以实现零射击效果，即不需要特定于某个数据集的小调整就能获得高质量结果。前特斯拉人工智能与自动驾驶部门负责人 Andrej Karpathy 对此表示赞赏，认为 OpenAI 正处于最佳状态。

然而，有用户对于使用「Whisper」存在疑虑，他们担心可能会出现类似GPT-3 和 Dalle-2 中禁止言论行为的问题，也就是是否会发生编辑或删除用户录制的声音的情况。因此，这一技术引发了一系列讨论，看看大家怎么看待这一问题？

参考链接：https://openai.com/blog/whisper/

标签：十大消费电子产品、图拉丁、蜂鸟、常用的电子产品有哪些、数码产品是手机吗

上一篇：实验室选矿设备 - 微观世界中的金银探索实验室选矿设备的奇迹

下一篇：OpenAI新语音系统Whisper仿佛一位和平精英免费开启科技软件的智慧守护者英文识别能力如同人类

科技流学霸的语音系统Whisper像人类一样聆听世界的声音

建筑设计-详解施工图中的关键要素与注意事项

防水布保湿不漏的日常小英雄

小空间大气派30平米一居室的装修艺术

智能水表如何节约家庭用水成本

梦境之墙绘制卧室的诗意篇章