2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的功能现已实现:直接将语音文件粘贴至输入框。随着大型语言模型(LLM)的普及,它们正在重塑各个行业的用户体验。然而,开发一款以人类语音为核心的生成式人工智能产品仍然充满挑战,因为处理音频文件一直是它们面临的难题之一。
利用大型语言模型进行音频转换的一个关键障碍在于它们受限于上下文窗口。在将一个长时间录制的声音资料提交给LLM之前,该声音需要首先被转换成可读的文字格式。由于长时间录制更容易超出LLM能理解的范围,因此处理这些长时段声音资料成为工程师们所面临的一个巨大的挑战。但在实际工作环境中,我们往往需要使用这些强大的工具来分析和提取来自数小时会议记录或深入访谈中的关键信息。
近期,AssemblyAI这家专注于语音识别技术公司推出了名为LeMUR的大型语言模型。这款新产品就像ChatGPT能够轻松处理几十页PDF文档一样,LeMUR可以对10小时甚至更长时间的声音数据进行准确无误地转写、解析,并且提供精简版内容概要。此外,它还能回答用户的问题,就像是他们直接询问的人类助理一样。
安全与准确性保证
值得注意的是,由于LeMUR内置了严格的安全措施和内容过滤系统,它能够保证输出结果既可靠又安全,不会产生有害或带有偏见的情绪色彩。
页面右侧提供了一个简单易用的界面,让用户可以要求LeMUR总结特定采访内容或者回答任何问题。而且,在测试中显示出LeMUR表现出色的效率,无论任务多么复杂,都能轻松应对。不过目前,这款技术似乎只支持英文。如果您对此感兴趣,可以立即尝试一下这个革命性的人工智能应用程序。