2025-02-23 手机 0
机器之心报道
编辑:张倩
在ChatGPT的模仿者中,一项突破性的技术已经实现了将语音文档粘贴到输入框的功能。
随着大型语言模型(LLM)的普及,它们正在重塑各个行业的用户体验。然而,开发基于人类声音的生成式人工智能产品仍然面临艰巨挑战,因为音频文件对于大型语言模型来说是一个难题。
将LLM应用于音频文件的一个关键难点是,它们受限于其上下文窗口。在一个长时间录制的声音内容被输入LLM之前,需要先转换成文字。与此同时,大量长篇文献和多小时会议记录等复杂数据对绕过LLM上下文窗口限制提出了更高要求。但在实际工作场景中,我们常需依靠LLM处理这些庞大的语音资料,比如从数小时会议纪录中提取关键信息,或寻找访谈中的某个问题答案……
近期,AssemblyAI这家专注于语音识别的人工智能公司推出了名为LeMUR的新模型。这就像ChatGPT能够处理大量PDF文档一样,LeMUR能接收10小时以上录音并进行转写、分析,然后提供核心要素总结以及回答用户的问题。
安全可靠输出保证
由于LeMUR内置有严格的安全措施和内容审查系统,它能够提供一系列来自大型语言模型回应,这些回应极少会出现有害或偏见性质的情报。
页面右侧,我们可以直接向LeMUR提出要求,如整理采访内容或解答疑问。看似轻松地完成任务后,其性能似乎仅局限于英文环境。感兴趣读者可以尝试一下它是否适用于中文环境。