2025-02-23 手机 0
机器之心报道
编辑:张倩
在ChatGPT的模仿者中,用户终于能将语音文件直接粘贴到输入框里。
大型语言模型正以其革新性影响着各个行业的用户体验。然而,将人类的声音融入生成式人工智能产品仍旧充满挑战,因为音频资料对这些大型语言模型构成了难题。
将LLM应用于音频资料的一个核心难点是它们受到上下文窗口限制。在一个长达数小时的音频文件被送入LLM之前,它必须先被转化为文字。随着音频资料长度增加,绕过LLM上下文窗口限制所需的技术努力也会逐渐增强。但在实际工作场景中,我们往往需要用LLM来处理那些非常长时间的语音记录,比如从几个小时会议录像中提取关键信息,或从一段访谈中寻找特定问题答案……
最近,AssemblyAI这家专注于语声识别的人工智能公司推出了名为LeMUR的大型语言模型。这就像是ChatGPT处理成百上千页PDF文件一样,LeMUR可以轻松地将10小时以上的录制内容进行转写、处理,并且帮助用户总结出录音中的核心要素,同时还能够回答用户提出的问题。
可靠、安全输出保障
由于LeMUR内置了安全措施和内容审查系统,它能够提供来自LLM的一系列回应,这些回应极少可能出现有害或带偏见的情节。
在页面右侧,我们可以通过点击按钮要求LeMUR对采访内容进行摘要或者回答我们提出的问题。看起来LeMUR已经具备完成这些任务所需能力:
不过,目前似乎LeMUR还不支持中文。如果你感兴趣的话,可以去试试它。
上一篇:从货到品我们的小加工厂