2025-02-23 手机 0
机器之心专报
编辑:张倩
突破性进展!现在你可以直接将语音文件粘贴到类似ChatGPT的输入框中。
大型语言模型(LLM)正席卷各个行业,重塑用户体验。尽管开发基于人类语音的生成式AI产品具有挑战性,因为它们需要处理复杂的音频数据。
将LLM应用于长时间录音的一大难题是其上下文窗口限制。在转换为可供LLM处理的文本之前,必须先解析音频文件。这一过程对于超长录音来说尤为棘手,但在实际工作场景中,我们常需对几小时甚至多天的会议、访谈等进行内容提取和问题回答。
AssemblyAI,一家领先的语音识别技术公司,就推出了名为LeMUR的大型语言模型。就像ChatGPT能够高效处理大量PDF文档一样,LeMUR能够对10小时以上的声音资料进行转录、分析,并提供核心信息总结与问题解答服务。
安全且准确
通过内置安全措施和内容过滤功能,LeMUR保证了输出结果既可靠又安全,不会产生有害或带偏见的情绪色彩。
页面右侧,你可以轻松要求LeMUR对采访内容做精炼,或回答你的疑问。无论任务多么繁琐,LeMUR似乎都能应付自如——除了中文支持目前尚未开放,如果你感兴趣,可以亲自尝试一下。