2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的功能现已实现:直接将长达10小时的语音文件粘贴至输入框,等待智能解答。随着大型语言模型(LLM)的广泛应用,它们正在彻底改变各行各业的用户体验。然而,将这些模型应用于以人类声音为基础的生成式人工智能产品仍面临诸多挑战。
首先,大型语言模型对于处理音频文件存在局限性。这是因为它们受其上下文窗口大小的限制。在将音频转换成可供LLM处理的文本之前,需要进行转码过程。而且,这个过程对于较长的音频文件来说尤其棘手,因为它必须绕过LLM所能承载的大量数据限制。例如,在会议记录或访谈录中,我们常常需要提取数小时甚至数天内重要信息,而这正是LLM难以完成任务的地方。
近期,一家名为AssemblyAI的声音识别技术公司推出了一个新工具叫做LeMUR(Large-scale Multimodal Understanding and Response)。就像ChatGPT能够轻松处理几十页厚重文献一样,LeMUR可以对任何长度不超过10小时录制内容进行即时翻译、分析,并总结核心要点,还能回答用户的问题。此外,由于LeMUR自带了安全措施和内容滤波器,它提供的是经过审查、无害且没有偏见的情报回应。
通过右侧交互界面,你可以要求LeMUR快速概述采访记录或者回答你最迫切的问题。尽管目前还未支持中文使用,但该系统显示出强大的能力,可以轻松应对各种复杂任务。如果你对此感到好奇,不妨亲自尝试一下这个革命性的创新!