2025-02-23 手机 0
机器之心专报
编辑:张倩
突破性进展!ChatGPT风范的语音输入功能现已上线。
大型语言模型(LLM)的普及正在重塑各行各业的用户体验。然而,将生成式人工智能产品设计为人类语音为中心,依然面临诸多挑战。音频文件对这些模型而言是一座难以逾越的障碍。
将 LLM 应用于长时间的音频记录的一个核心难题在于其上下文窗口限制。在将一个音频文件输入到 LLM 之前,它首先需要被转换成文字。随着录音时长的增加,绕过这个限制变得更加棘手。但在工作环境中,我们往往需要处理数小时甚至数天的会议纪要、访谈记录等长篇累牍的声音资料,以提取关键信息或寻找特定问题答案。
最近,一家名为AssemblyAI的专注于语音识别技术的小组推出了一个革命性的新工具——LeMUR。这款AI就像能够轻松处理几十页PDF文档的大型语言模型一样,能够不仅仅是将10小时以上的录制内容准确无误地转写,还能帮助用户提炼出重要信息,并回答他们的问题,就像一位忠实且高效的地图导游一样引导用户找到所需答案。
安全可靠,不偏离正道
通过内置了严格安全措施和内容过滤系统,LeMUR保证了输出结果既准确又健康,即使是最复杂的问题也不会出现有害或带有偏见的情绪表达。
右侧屏幕我们可以直接要求LeMUR总结访谈内容或者解答疑问,而它通常都能以惊人的速度完成任务:
但遗憾的是,对于那些希望使用中文进行交流的人来说,这项服务似乎还未开启。不过,对此感兴趣的一众读者们,可以尝试一下看是否能打开这扇门。
上一篇:机械之翼滚筒输送设备的奇迹运作