2025-02-23 手机 0
机器之心科技报道
编辑:张倩
突破性语言模型应用:音频转文本革新,打造人类语音智能交互
随着大型语言模型(LLM)的广泛应用,它们正改变各行各业的用户体验。然而,将这些模型融入以人类语音为核心的生成式人工智能产品仍面临诸多挑战,其中之一就是如何高效处理音频文件。
LLM 在处理长时间录音时遇到的一个主要难题是其上下文窗口限制。在将一段较长的音频文件输入LLM之前,这个文件需要首先被转换成可读的文本形式。随着录音时长的增加,绕过这一技术障碍就越显得棘手。不过,在实际工作中,我们往往需要从数小时甚至数天内的大量会议记录或访谈内容中提取关键信息或回答特定问题。
为了解决这一问题,一家名为AssemblyAI 的语音识别技术公司推出了名为LeMUR的人工智能模型。这款新工具如同ChatGPT一样能够处理大量文字资料,但它更擅长于对10小时以上录制的语音进行自动转写、整理并提取核心要点,并能即时回答用户的问题。
安全且准确
LeMUR采用了严格的安全措施和内容过滤系统来保证输出质量,使得其回应不会包含有害或带偏见的情绪色彩,从而提供了一种更加可靠和负责任的人工智能服务。
在页面右侧,我们可以通过简单操作要求LeMUR总结访谈内容或者回答我们提出的问题。经过测试,LeMUR显示出高度效率和精准度,只是在中文支持方面还需进一步完善。如果您对此感兴趣,可以立即尝试一下这项创新技术。