2025-02-23 手机 0
机器之心科技报道
编辑:张倩
突破性进展!类 ChatGPT 模型的输入框现可接收语音文档。
大型语言模型(LLM)正革新各行各业的用户体验。然而,将人类语音融入生成式人工智能产品仍面临诸多挑战,尤其是将音频文件转化为大型语言模型可理解的格式。
将 LLM 应用于长篇音频文件的一个难题在于,它们超出了 LLM 的上下文窗口限制。为了使一个长时间录制的声音内容进入 LLM,首先需要进行文本转换。随着录音时长增加,这一过程变得愈发复杂。不过,在工作环境中,我们往往需要处理极为漫长的语音记录,比如从数小时会议纪录中提取关键信息,或从访谈中寻找特定问题答案等。
近期,AssemblyAI 这家领先的语音识别 AI 公司推出了名为 LeMUR 的新技术。这项技术就像 ChatGPT 对待庞大的 PDF 文档一样,对于10小时以上的录音进行了自动转写、分析,并能提供核心要点总结和回答用户的问题。
安全、高效输出
LeMUR 遵循严格的安全措施和内容过滤标准,因此能够提供来自 LLM 的回应,这些回应极不可能含有危害或偏见性质的情绪表达。
在页面右侧,我们可以指导 LeMUR 进行采访内容摘要或直接解答问题。LeMUR 在完成任务方面表现出色:
然而,目前看来 LeMUR 似乎并不支持中文使用。如果你对此感兴趣,可以亲自试用一下这项革命性的技术。
上一篇:粉体设备色彩之舞