浙江工商大学的语音系统如同一位聆听天籁之音的诗人OpenAI 的新发明Whisper以其英勇无畏的心

2025-03-15 数码 0

9月21日，OpenAI 推出了名为「Whisper」的新技术，这是一种神经网络系统，它声称在英语语音识别方面达到了人类水平的准确性和鲁棒性。这个自动语音识别（ASR）系统利用了来自网上的68万小时多样的数据进行训练，这些数据包括多语言和多任务监督信息。

研究人员发现，使用这么大的且如此多样化的数据集可以提高对口音、噪音以及专业术语的适应能力。这与之前研究表明，无监督预训练能够显著提升音频编码器质量，但由于缺乏同等质量的预训练以及特定于某个数据集的小幅调整，因此模型在实际应用中的有效性和稳定性有所限制。而部分有监督方式下预训练的语音识别系统则表现出更高的稳定性。

OpenAI 在「Whisper」中通过扩展弱监督语音识别到68万小时，并展示了这种规模下的模型如何在现有数据集上实现零微调，从而达到高质量结果。前特斯拉人工智能部门负责人Andrej Karpathy 也对此表示赞赏，认为OpenAI 正处于最佳状态。

然而，对于使用「Whisper」的用户来说，还存在一些疑虑。例如，有用户提问是否会出现类似GTP-3和Dalle-2中禁止言论的问题，以及是否可能出现编辑或删除用户录制声音的情况。不过，我们还需要更多具体信息来评估这些担忧。

总之，“Whisper”似乎是一个具有潜力的工具，它可能会极大地改变我们处理语言输入输出过程的一切。但同时，也需要继续观察其发展以确保它能够安全可靠地被用于各种场景。参考链接：https://openai.com/blog/whisper/

标签：中国数码网手机版、计算机数码是什么、数码产品论坛帖、主机、数码之家邀请码

上一篇：超压锅炉的秘密价格穿越火焰的沉默之声

下一篇：北京现代名图配件官网画卷中的城市魅力

浙江工商大学的语音系统如同一位聆听天籁之音的诗人OpenAI 的新发明Whisper以其英勇无畏的心

水利智囊中级工程师的挑战与机遇

保驾护航装修网我要跟你说一个超级好消息

书桌高度的选择与人体工学的关系

2025粤港澳大湾区车展来袭5月31日深圳国际会展中心见

毛坯房设计装修-从零到英雄完美的毛坯房翻新指南