2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的功能现已实现:用户可以直接将语音文件粘贴至输入框,享受大型语言模型(LLM)的智能服务。随着LLM的广泛应用,它正在重塑各行各业的用户体验。但是,将人类的声音转化为AI生成内容的产品仍面临诸多挑战,其中之一就是处理音频文件这一复杂过程。
一个困难点在于,大型语言模型受其上下文窗口限制。在将音频数据输入到模型之前,这些数据需要先被转换成文字。而长时间录制的音频文件,如会议记录或访谈录像,其转换和处理过程显得尤为棘手。尽管工作场景中我们常需对这些长时语音进行精准提取,比如从几个小时的会议记录中抽取关键信息,或从长篇访谈中找出特定问题答案……
AssemblyAI,一个专注于语音识别技术的公司,近日推出了名为LeMUR的大型语言模型。这款新工具就像是ChatGPT处理PDF文档一样,可以轻松应对10小时以上的录音转录,并且能够帮助用户总结核心内容并回答问题。
安全可靠输出保证
LeMUR配备了严格的安全措施和内容过滤系统,因此它提供给用户的是经过训练有素的大型语言模型回应,这些回应极不可能包含危险或偏见性质的情绪表达。
在页面右侧,我们可以要求LeMUR概述采访材料或者回答我们的疑问。目前看来,LeMUR已经能够流畅完成大部分任务:
然而,有趣的是,截至目前,该系统似乎还未支持中文。如果你对此感兴趣,不妨亲自试一试看看。
上一篇:医疗小系统清洁之翼