2025-02-23 手机 0
机器之心专报
编辑:张倩
突破性进展!现在你可以直接在类 ChatGPT 的界面中粘贴语音文件了。
大型语言模型(LLM)的崛起正在彻底重塑各行各业的用户体验。然而,开发以人类声音为核心的生成式人工智能产品仍旧充满挑战,因为音频数据对这些大型语言模型来说是个难题。
将 LLM 应用于音频信息的一个关键难点是,它们受到上下文窗口限制。在一个长时间的音频文件被输入到 LLM 之前,首先需要将其转换成文字形式。随着音频文件长度的增加,要克服 LLM 上下文窗口限制所需的技术努力也就越来越庞杂。不过,在工作场景中,我们经常需要利用 LLM 来处理那些极为漫长的声音资料,比如从几小时长的一次会议录音中提取主要内容、从一段访谈中找到某个问题答案……
最近,一家名叫AssemblyAI的语音识别技术公司推出了一个名为LeMUR的大型模型。这就像ChatGPT能够处理数十页PDF文档一样,LeMUR能够将10小时以上的声音记录进行转写和分析,然后帮助用户总结出重要信息,并回答他们的问题。
安全可靠输出
由于LeMUR内置有安全措施和内容过滤系统,它能提供来自LLM的一系列回应,这些回应极不可能包含有害或带偏见的情绪色彩。
在页面右侧,我们可以要求LeMUR对采访内容进行简要概括或者回答我们的疑问。看起来LeMUR已经具备完成这些任务所需能力:
不过,目前似乎还没有支持中文使用。如果感兴趣,可以去试试这个新功能。