2025-02-23 手机 0
机器之心报道
编辑:张倩
在未来世界,ChatGPT的音频输入功能已然开启,让我们可以将长达10小时的语音文件直接粘贴进去,无需再转换为文字。这种基于人类语音的大型语言模型(LLM)正在重塑各行各业的用户体验。然而,将LLM应用于复杂的音频数据仍面临挑战之一,就是如何让这些数据与LLM相匹配。
首先,我们需要理解LLM是如何工作的。在处理一个长时间录制的声音文件时,一个关键问题就是它所能处理的大量上下文限制。而为了进入这个系统,它必须首先被转化成可读取的人类语言。这意味着,对于一段几个小时甚至更长时间的会议记录或者访谈录像,我们都需要通过一种方式来“解锁”它们,以便进行分析和提取核心信息。
最近,一家专注于语音识别技术的公司AssemblyAI推出了一个名为LeMUR的大型语言模型。就如同ChatGPT能够快速处理几十页厚重的PDF文档一样,LeMUR能够以惊人的速度将长达10小时以上的声音文件进行转录、整理,并且提供精准总结,同时还能回答用户的问题。
安全而又可靠
由于LeMUR内置了严格的人工智能安全措施和内容过滤器,它保证了输出内容既不可能产生有害影响,也不会出现偏见性言论。无论你需要从数百分钟采访中抽取关键点,或是回答特定问题,都可以轻松地完成任务:
不过,有一点要注意的是,目前LeMUR似乎并不支持中文。如果你对此感兴趣,可以尝试一下,看看是否能实现你的需求。
上一篇:工业废水之梦净化器的诗篇