2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 这样的模型中,用户现在可以直接粘贴语音文档,这标志着大型语言模型(LLM)的应用正在彻底改变各行各业的用户体验。然而,将人类语音转化为生成式人工智能产品仍面临诸多挑战,因为音频文件对于这些模型来说是一个难以逾越的障碍。
将 LLM 应用于长时间的音频文件的一个核心问题是,它们受限于其上下文窗口。在将一个音频文件输入到 LLM 之前,该文件必须被转换成可读的文本格式。随着音频文件长度的增加,绕过这种限制变得更加棘手。然而,在实际工作场景中,我们往往需要处理数小时甚至数天的会议录音、访谈录像等,以提取关键信息或找到特定问题的答案。
最近,一家名为 AssemblyAI 的公司推出了一个新型语音识别 AI 模型,称为 LeMUR。这款模型就像 ChatGPT 对待几十页 PDF 文档一样,可以对长达 10 小时的声音进行实时转录,并且能够总结其中重要内容,同时回答用户的问题。
安全、高效输出
LeMUR 加入了严格的安全措施和内容过滤系统,因此它提供给用户的是经过精心筛选、无害且有偏见可能性极低的情报回应。
通过页面右侧,我们可以向 LeMUR 提出任务,比如总结采访内容或者回答我们的疑问。据观察,LeMUR 在完成这些任务方面表现得相当流畅。不过目前看来,它似乎还不支持中文。如果你对这项技术感兴趣,不妨亲自尝试一下看看它能做什么。