2025-02-23 手机 0
机器之心科技报道
编辑:张倩
革新每个行业的用户体验,类似ChatGPT的大型语言模型(LLM)正逐步展现其强大力量。然而,将人类语音转化为生成式人工智能产品仍面临着诸多挑战,其中之一就是如何有效处理音频文件。
一个关键难题在于,LLM受到其上下文窗口限制。在将音频文件输入到LLM之前,它必须首先被转换成文本。随着音频文件长度的增加,绕过这个限制变得更加困难。但是,在工作场景中,我们往往需要处理非常长的语音文件,比如从数小时会议录音中提取核心信息,或从访谈中找到特定问题的答案。
最近,一家专注于语音识别技术的公司AssemblyAI推出了名为LeMUR的大型语言模型。就像ChatGPT能够高效地处理几十页PDF文档一样,LeMUR能够将长达10小时的录音进行准确转录、分析,并且帮助用户总结主要内容,同时回答他们的问题。
安全可靠的人工智能输出
由于LeMUR内置了安全措施和内容过滤器,它能提供来自LLM的一流回应,这些回应极少可能包含有害或偏见的情绪色彩。
在页面右侧,我们可以轻松要求LeMUR对采访内容进行总结或者回答我们的疑问。目前看来,LeMUR似乎已经准备好完成这些任务:
尽管如此,截至目前信息显示,LeMUR并不支持中文。如果你对这项技术感兴趣,可以尝试一下看看它是否适合你的需求。