2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的技术使得用户能够直接将语音文件粘贴到输入框中。这种大型语言模型(LLM)的应用正在重塑各个行业的用户体验。但是,开发一个以人类语音为核心的生成式人工智能产品仍然面临着挑战,这主要来自于音频文件对这些模型构成的困难。
将 LLM 应用于音频数据的一个关键难题是,它们受到上下文窗口限制。在将一段长时间录制的声音内容输入到 LLM 之前,首先需要把其转换成文字形式。这一过程对于处理几小时甚至更长时间的会议记录或访谈录像是极其繁琐和复杂的任务。不过,在实际工作环境中,我们往往需要从大量语音资料中提取核心信息,比如从几个小时的会议记录里提取关键点,从数十分钟的采访中找出某个问题答案等。
最近,AssemblyAI——一家专注于语音识别技术研究的小组发布了一个名为 LeMUR 的新型语言模型。这个系统就像能处理几十页PDF文档的大型语言模型一样,对10小时以上长篇大作进行了准确无误地转写,并帮助用户总结重要部分、回答疑问。此外,由于LeMUR内置有安全措施和内容过滤功能,其输出回应不仅准确,而且不会包含任何有害或带偏见的情绪色彩。
通过页面右侧可视化界面,我们可以轻松地要求LeMUR总结特定采访内容或者回答我们的问题。而且,不论任务多么复杂,LeMUR都能轻松完成:
不过遗憾的是,目前看来LeMUR还无法理解中文。如果你对这项技术感兴趣,可以尝试一下使用它。