2025-02-23 手机 0
机器之心报道
编辑:张倩
在深入挖掘技术的宝藏时,类 ChatGPT 的创新模块终于迎来了语音时代。随着大型语言模型(LLM)的普及,它们正在重塑各个行业的用户体验。但是,将人类的声音转化为智能生成的艺术品仍旧面临诸多挑战,尤其是在处理那些音频长篇大作时。
其中一个主要难题便是,大型语言模型受限于它们所能理解的上下文窗口。在将一段音频文件输入到这类模型之前,它首先需要被转换成文字。而一旦这些音频文件变得过于庞大,其绕过这些限制就显得更加棘手。然而,在实际工作中,我们往往需要这类模型来处理极其漫长的语音记录,比如从几个小时的会议录像中提取关键信息,或从一次长达数小时的访谈中寻找某个问题答案。
近期,一家专注于语音识别的人工智能公司——AssemblyAI推出了名为LeMUR的一个全新的模型。这款LeMUR与ChatGPT相似,但它能够以一种前所未有的速度和效率将10小时甚至更长时间内录制的声音内容进行转写、分析,并且帮助用户总结核心要点并回答他们的问题。
安全可靠输出
值得注意的是,由于LeMUR集成了安全措施和内容过滤功能,它能够提供来自LLM的一系列回应,这些回应几乎不可能包含有害或带有偏见的情感色彩。
在页面右侧,我们可以通过简单操作要求LeMUR对采访内容进行总结或者解答问题。看起来,LeMUR已经具备了完成各种任务所需的大部分能力。不过,对中文支持目前还处于试验阶段。如果你对此感到好奇,不妨亲自尝试一下。