2025-02-23 手机 0
机器之心报道
编辑:张倩
在ChatGPT这样的大型语言模型中,终于有了一个新功能——可以直接粘贴语音文档进行输入。这种以人类语音为核心的生成式人工智能产品正悄然改变着各行各业的用户体验。然而,将这些复杂的声音数据转换成计算机可理解的格式仍是一项挑战。
其中最大的难题之一是如何将长时间的音频文件输入到这些模型中。大型语言模型由于其上下文窗口限制,只能处理较短的文本段落。而在实际工作场景中,我们往往需要分析那些数小时甚至数天的会议录音、访谈记录等内容,这些都超出了传统模型所能承受的范围。
最近,一家专注于语音识别技术的小组推出了一个名为LeMUR的大型语言模型。这款AI就像能够轻松处理几十页PDF文件一样,它可以接受10小时以上长达的一整段录音,并对其进行准确转录和总结,甚至还能回答用户的问题。
而且,这款AI不仅精准,还非常安全。它内置了严格的安全措施和内容过滤器,以确保输出始终是负责任且无偏见性的。此外,用户界面设计得非常友好,可以轻松地要求LeMUR总结某个采访或者回答问题,无论任务多么复杂,都似乎不过分困难。
值得一提的是,目前LeMUR似乎并不支持中文。如果你对这项技术感兴趣,不妨尝试一下看看它是否适用于你的需求。
上一篇:我和我的pcr仪