2025-02-23 手机 0
机器之心专报
编辑:张倩
突破性进展!现在你可以直接将语音文件粘贴到类 ChatGPT 模型的输入框中。
大型语言模型正革新各个行业的用户体验。尽管构建以人类语音为核心的生成式人工智能系统仍然面临挑战,特别是处理音频数据给大型语言模型带来的困难。
将大型语言模型应用于音频文件的一个关键难题在于,它们受到上下文窗口限制。在一个长时间录制的音频文件被输入到大型语言模型之前,它需要先转换成文字格式。随着录音时长增加,绕过这些上下文限制变得越来越棘手。但是在实际工作环境中,我们常常需要利用这样的技术来分析数小时甚至数天的会议记录、访谈内容等,以提取关键信息或找到特定问题答案。
就在最近,AssemblyAI 这家领先的语音识别技术公司推出了名为 LeMUR 的一款新工具。这项技术就像让 ChatGPT 处理大量 PDF 文档一样,让 LeMUR 能够轻松处理超过 10 小时长短录音,并且能够自动进行转写和总结,以及回答用户的问题。
安全可靠地获取信息
LeMUR 内置了严格的安全措施和内容过滤功能,这意味着它提供的大量回应都经过仔细筛选,不会产生有害或偏见性的言论。
在页面右侧,你可以轻松地要求 LeMUR 对采访内容进行总结或者回答你的问题。LeMUR 显得高效能干净利落地完成所有任务:
然而目前看起来,LeMUR 尚不支持中文。如果你对这个话题感兴趣,可以去试试看一下这项革命性的新技术。
下一篇:家庭饮用水检测的重要性和方法