当前位置: 首页 - 手机 - 网络科技有限公司的ChatGPT如同拥有千年的智慧能听懂每一个语音的召唤它在过去10小时内录下了无数

网络科技有限公司的ChatGPT如同拥有千年的智慧能听懂每一个语音的召唤它在过去10小时内录下了无数

2025-02-23 手机 0

机器之心报道

编辑:张倩

在 ChatGPT 这样的模型中,用户现在可以直接粘贴语音文档,这标志着大型语言模型(LLM)的应用正在彻底改变各行各业的用户体验。然而,将人类语音转化为生成式人工智能产品仍面临诸多挑战,因为音频文件对于这些模型来说是一个难以逾越的障碍。

将 LLM 应用于长时间的音频文件的一个核心问题是,它们受限于其上下文窗口。在将一个音频文件输入到 LLM 之前,该文件必须被转换成可读的文本格式。随着音频文件长度的增加,绕过这种限制变得更加棘手。然而,在实际工作场景中,我们往往需要处理数小时甚至数天的会议录音、访谈录像等,以提取关键信息或找到特定问题的答案。

最近,一家名为 AssemblyAI 的公司推出了一个新型语音识别 AI 模型,称为 LeMUR。这款模型就像 ChatGPT 对待几十页 PDF 文档一样,可以对长达 10 小时的声音进行实时转录,并且能够总结其中重要内容,同时回答用户的问题。

安全、高效输出

LeMUR 加入了严格的安全措施和内容过滤系统,因此它提供给用户的是经过精心筛选、无害且有偏见可能性极低的情报回应。

通过页面右侧,我们可以向 LeMUR 提出任务,比如总结采访内容或者回答我们的疑问。据观察,LeMUR 在完成这些任务方面表现得相当流畅。不过目前看来,它似乎还不支持中文。如果你对这项技术感兴趣,不妨亲自尝试一下看看它能做什么。

标签: 韩国电影手机商务手机推荐oppo新款5g手机价格哪个手机好新款手机2022款排行