2025-02-23 手机 0
机器之心科技报道
编辑:张倩
突破性进展!现在你可以直接将语音文件粘贴到类似ChatGPT的输入框中。
大型语言模型(LLM)正席卷各个行业,重塑用户体验。尽管开发基于人类语音的生成式AI产品具有挑战性,因为它们需要处理复杂的音频数据。
将LLM应用于长时间录音的一大难题是其上下文窗口限制。在转换为文本之前,一个长时间录音需要被分割成可管理的小块。随着录音时长增加,这一工程上的难度也随之增长。不过,在实际工作环境中,我们往往需要处理数小时甚至数天的会议记录或访谈内容,以提取关键信息或找到特定问题的答案。
近日,一家名为AssemblyAI的公司推出了LeMUR,一个革命性的新模型。就像ChatGPT处理大量PDF文件一样,LeMUR能够快速高效地转录、分析并总结10小时以上的声音资料,并回答用户的问题。
安全且准确
由于LeMUR内置了严格的安全措施和内容过滤系统,它能够提供高质量、高安全性的LLM响应,从而规避潜在的有害或偏见信息。
在页面右侧,你可以轻松地要求LeMUR对采访内容进行摘要或者回答你的疑问。它似乎已经具备完成这些任务所需的大多数功能:
然而,由于技术发展尚未完全成熟,目前看来LeMUR不支持中文。如果你对这个技术感兴趣,可以亲自尝试一下,看看它能做什么惊喜的事情。