2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的输入框中,终于可以粘贴语音文件了。这种大型语言模型正改变着每个行业的用户体验。然而,将人类语音转化为生成式人工智能产品仍然面临一系列挑战,因为音频文件对这些模型来说是一个巨大的难题。
将大型语言模型应用于音频数据的关键难点在于它们受限的上下文窗口。在一个长时间录制的声音资料想要被输入到模型之前,它首先需要被转换成可读的文字格式。而随着录音时长的增加,这项任务变得愈发棘手。但是,在工作场所,我们往往需要处理非常庞大的声音资料,比如从数小时会议记录中提取关键信息,或是从一段访谈中找出特定问题答案等。
最近,AssemblyAI公司推出了一个名为LeMUR的大型语音识别系统。这款系统就像ChatGPT处理PDF文件一样,可以对10小时以上的声音进行转录、分析,并且帮助用户总结核心内容,同时回答他们的问题。
安全、准确输出保证
由于LeMUR内置有安全措施和内容过滤功能,它能够提供来自大型语言模型的回应,这些回应极不可能包含有害或带偏见的情绪。
在页面右侧,我们可以要求LeMUR总结访谈内容或回答问题。LeMUR通常能够轻松完成这些任务:
不过,目前看来LeMUR似乎还无法理解中文。如果你对这项技术感兴趣,可以尝试一下看看它能做什么。