2025-02-23 手机 0
机器之心专报
编辑:张倩
突破性技术更新
随着大型语言模型(LLM)的普及,它们正逐步渗透到各行各业的用户需求中。然而,将人类语音转化为生成式人工智能产品仍面临诸多挑战,尤其是对于处理音频文件这一问题。
其中一个关键难点在于,大型语言模型受到其上下文窗口限制。在将音频文件输入LLM之前,需要先进行文本转换。而当音频文件长度增加时,这一工程挑战也相应增大。然而,在工作场景中,我们往往需要处理长达数小时的语音记录,比如从会议录音或访谈中提取关键信息或回答特定问题……
最近,一家名为AssemblyAI的公司推出了一个名为LeMUR的大型语言模型。这款新技术就像ChatGPT一样能够处理大量PDF文档一样,LeMUR能够对10小时长的录音进行准确的文字转写,并且能帮助用户总结核心内容并回答他们的问题。
安全可靠输出保证
由于LeMUR内置了安全措施和内容过滤功能,它将提供经过LLM生成但不具有有害或偏见特性的回应。
页面右侧,我们可以要求LeMUR对采访内容进行总结或者解答问题。目前看来,LeMUR已经能够轻松完成这些任务:
不过值得注意的是,目前LeMUR似乎还不支持中文。如果您感兴趣,可以尝试一下这项最新技术。