2025-02-23 手机 0
机器之心报道
编辑:张倩
在智能时代的浪潮中,类 ChatGPT 的技术正在悄然变革。最新消息显示,输入框现在可以接受语音文档的粘贴操作,大型语言模型(LLM)正逐步渗透各个行业,以改变用户的期望。但是,将人类语音转化为生成式人工智能产品仍面临诸多挑战。
其中一个关键难题是将长时间的音频文件适应于大型语言模型。这些模型受限于其上下文窗口大小,因此处理较长的音频文件变得困难。不过,在工作环境中,我们常需要处理几小时甚至更长时间的录音,比如从会议记录或访谈中提取核心信息。
近日,一家名为 AssemblyAI 的公司推出了一个新型语音识别 AI 模型,称为 LeMUR。这款模型就像 ChatGPT 处理大量 PDF 文本一样,它能够对超过 10 小时的录音进行转录和分析,并提供精确总结以及回答用户的问题。
安全可靠
LeMUR 还配备了安全措施和内容过滤器,以确保输出回应不含有害或偏见性质的情绪。
在页面右侧,我们可以要求 LeMUR 对采访内容进行总结或者直接回答问题。目前看来,这款系统似乎已经能轻松完成许多任务。不过,值得注意的是,LeMUR 目前尚未支持中文。如果你对这个功能感兴趣,可以去试一试。
下一篇:餐厅下水油水分离池净化的守护者