2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的技术使得用户能够直接将语音文件粘贴至输入框。这些大型语言模型正席卷各个行业,重塑着用户的期望。但是,将人类的声音转化为生成式人工智能产品仍面临诸多挑战,其中最主要的是如何处理音频数据。
对于大型语言模型来说,最大的困难之一就是它们受到上下文窗口的限制。在将音频文件输入到模型之前,这些文件首先需要被转换成文字。随着音频长度的增加,绕过这一限制变得更加棘手。这一挑战尤其明显,因为工作场景往往要求处理长达数小时的语音记录,比如从会议录音中提取关键信息,或从访谈中找到特定问题的答案。
近日,一家名为 AssemblyAI 的公司推出了一个新型语音识别 AI 模型——LeMUR。这个模型就像对付几十页 PDF 文档一样,可以轻松处理长达10小时的录音,并提供精准的转录、总结和问答服务。
安全可靠
LeMUR 不仅具备高效率,还配备了强有力的安全措施和内容过滤器,以确保输出结果不仅准确,而且不会产生有害或带偏见的情报。
页面右侧,我们可以通过简单操作来要求 LeMUR 提供采访内容摘要或者回答问题。而且,这款 AI 模块似乎已经能够轻松完成任务。不过,它目前还无法理解中文。如果你对这项技术感兴趣,可以尝试一下它是否能满足你的需求。