2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的技术已经实现了,将语音文档直接粘贴到输入框中。随着大型语言模型(LLM)的普及,它们正在重塑各个行业的用户体验。不过,开发能够理解人类声音的生成式人工智能产品仍然面临艰难的挑战,因为处理音频文件一直是它们克服的一个巨大障碍。
将 LLM 应用于长时间的音频文件最大的困难之一是它们受到上下文窗口限制。在将一段长时间录制的声音转换成可供 LLM 处理的文本之前,都需要先进行转码。如果是一场持续几个小时会议或访谈录音,绕过这些限制就显得尤为棘手。然而,在实际工作环境中,我们经常需要对这些长时间录制的声音内容进行精准提取,比如从数小时会议记录中抽取关键信息,或从一个长篇访谈中找出特定问题答案……
近期,专注于语音识别技术的小公司 AssemblyAI 推出了一个名为 LeMUR 的新型模型。这款模型,就像 ChatGPT 对待几十页 PDF 文档一样,对付10小时甚至更长时长度的录音不成问题。LeMUR 不仅能准确地将这些庞大的数据集转化为可读性强的人类语言,还能够帮助用户总结核心要点,并回答他们的问题。
安全、无偏见
值得一提的是,LeMUR内置有严格的安全措施和内容过滤系统,这意味着它提供给我们的回应既可靠又不易出现有害或带偏见的情形。
在页面右侧,你可以轻松地向 LeMUR 提交任务,如整理采访记录或提出疑问。经过测试,我们发现 LeMUR 在完成任务方面表现得相当出色,只不过目前还未支持中文使用,如果你对这项技术感兴趣,可以尝试一下看看其功能如何运作。