2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的技术使得用户能够直接将长达10小时的语音文件粘贴至输入框,享受即时的问答服务。
随着大型语言模型(LLM)的普及,它们正逐渐改变各个行业用户对服务的期望。然而,将人类语音转换为生成式人工智能产品仍面临一系列挑战,其中之一便是音频文件对于LLM的不适应性。
将LLM应用于复杂音频文件的一大难题是其上下文窗口限制。在传统情况下,一个长时间录制的声音需要被先转化为文字形式才能供LLM处理。但是在实际工作场景中,我们往往需要从数小时或数天前的会议记录、访谈内容等处提取关键信息,这就显得尤为棘手。
近日,一家专注于语音识别技术的公司AssemblyAI推出了名为LeMUR的大型语言模型。这款模型就像ChatGPT处理大量PDF文档一样,能够高效地处理长达10小时以上的录音数据,并帮助用户提取核心信息以及回答问题。
安全且可靠
LeMUR通过内置安全措施和内容过滤功能,为用户提供了来自LLM系统的一流回应,从而确保输出内容既准确又免疫于有害或带偏见的情绪表达。
在页面右侧,我们可以轻松地要求LeMUR总结采访内容或者解答疑惑。该系统似乎已经具备完成多种任务所需的一切能力:
不过,对于中文支持方面,目前看来LeMUR还未完全开启门户。不过,对此感兴趣的人士依然可以尝试一下它最新版本以体验前沿科技。
上一篇:梦回唐朝花落知多少的诗意追忆