2025-02-23 手机 0
机器之心报道
编辑:张倩
在近年来中国的科技成果中,ChatGPT这款能听懂语音的AI模型已经引起了广泛关注。随着技术的不断进步,我们现在可以将长达10小时的录音文件直接输入到类似ChatGPT这样的系统中,询问任何问题。
大型语言模型(LLM)的应用正在改变每个行业用户的期望,但将人类语音转换为生成式人工智能产品仍然面临挑战。这主要是因为音频文件对大型语言模型构成了难题。一个关键的问题是,LLM受其上下文窗口限制。在处理一个长时间录制的声音之前,它需要被转换为文字。因此,对于那些几小时甚至几个月长的会议记录、访谈等声音资料进行自动化处理变得尤为困难。
然而,一些公司,如AssemblyAI,其新推出的LeMUR模型正试图解决这一问题。就像ChatGPT能够快速处理大量文本一样,LeMUR能够将10小时以上的声音数据进行实时转录,并帮助用户提取核心信息,同时回答他们的问题。
安全可靠
LeMUR通过包括安全措施和内容过滤器来确保输出结果既准确又安全,不会产生有害或带有偏见的情绪表达。
页面右侧提供了与LeMUR互动的功能,让我们可以要求它总结特定采访内容或者回答我们的疑问。而且,由于其强大的功能,LeMUR似乎能轻松应对各种任务。不过目前,它还不支持中文。如果你感兴趣,可以去体验一下这个最新的人工智能技术。