2025-02-23 手机 0
机器之心报道
编辑:张倩
类 ChatGPT 模型的输入框里终于迎来了语音时代。
大型语言模型(LLM)正在重塑各行各业的用户体验。然而,开发以人类语音为核心的生成式人工智能产品仍旧面临着挑战,因为处理音频文件对于大型语言模型而言是个棘手的问题。
将 LLM 应用于音频文件的一个关键难题是,它们受限于其上下文窗口。在将一个长时间录制的声音内容投入到 LLM 之前,这个声音首先需要被转换成文字。随着录音时长的增加,绕过 LLM 上下文窗口限制所需的技术解决方案也变得更加复杂。不过,在工作环境中,我们往往需要这样的系统来处理极长时间的语音记录,比如从几个小时连续会议中的精华部分提取,或在一段数小时访谈中寻找某个问题答案……
近期,一家专注于语音识别技术的小组 AssemblyAI 推出了名为 LeMUR 的新工具。这项技术就像 ChatGPT 对待几十页文档一样,可以轻松应对 10 小时以上的声音记录,将它们转化为可读性强、结构清晰的文字,并且能够提炼出核心信息,同时回答用户的问题。
安全高效输出保证
LeMUR 设计了严格的安全措施和内容过滤机制,以确保它提供给我们的回应既准确又无害,不会产生有害或带偏见的情绪。
我们可以通过页面右侧进行操作,让 LeMUR 总结访谈内容或者直接回答问题。LeMUR 在执行任务方面表现得相当流畅:
不过,目前看来 LeMUR 并不支持中文。如果你对这个功能感兴趣,你可以尝试一下看看效果如何。