2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的输入框中,用户终于可以粘贴语音文档了。这些大型语言模型正在彻底改变各行各业的用户体验。然而,将人类语音转化为生成式人工智能产品仍面临着一系列挑战,因为音频文件对这些模型来说是一个巨大的障碍。
将大型语言模型应用于音频文件的难点之一是它们受到上下文窗口限制。在一个长时间的音频文件被送入系统之前,它必须首先被转换成文字。而随着录音时长的增加,这个过程变得越来越复杂和耗时。但是在实际工作场景中,我们经常需要处理几小时乃至数天的会议记录、访谈录等,以提取关键信息或找到特定问题的答案。
最近,一家名为 AssemblyAI 的公司推出了一个新型语音识别 AI 模型——LeMUR。这款模型就像 ChatGPT 处理大量 PDF 文档一样,可以轻松处理10小时以上的录音数据,并提供核心内容总结以及直接回答用户的问题。
安全可靠
值得注意的是,LeMUR配备了严格的安全措施和内容过滤机制,因此它能够提供高质量且无害、不带偏见的人工智能回应。
通过页面右侧的小工具,我们可以要求 LeMUR 对采访内容进行摘要或者回答我们的疑问。据观察,LeMUR 在完成任务方面表现出色。不过目前,该系统似乎只支持英文输入。如果你对这个技术有兴趣,可以尝试一下看看它是否适用于你的需求。