2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的技术使得用户能够直接将语音文件粘贴到输入框中。随着大型语言模型(LLM)的普及,它们正在重塑各个行业的用户体验。不过,开发一款以人类语音为基础的生成式人工智能产品仍然充满挑战,因为处理音频数据对这些模型来说是一个棘手的问题。
一个困难之处在于,大型语言模型受到其上下文窗口限制。在将音频文件输入到LLM之前,它需要先被转换成文字。长时间的音频记录会增加这个过程中的复杂性,但我们的工作场景往往需要处理几小时甚至更长的录音,比如从会议录音中提取关键信息或者从访谈中找出特定问题的答案。
最近,AssemblyAI,这家专注于语声识别的人工智能公司,推出了名为LeMUR的大型语言模型。与ChatGPT一样,可以处理大量PDF文档,LeMUR可以自动转录、分析并总结10小时长的声音内容,并回答用户的问题。
安全可靠
LeMUR内置了安全措施和内容过滤器,因此它提供给用户的是经过筛选且不太可能包含有害或偏见信息的回应。
通过页面右侧,我们可以要求LeMUR概述采访内容或解答问题。目前看来,LeMUR似乎已经能够轻松完成这些任务。
然而,由于目前只支持英文,我们不能立即使用中文。如果你对这项新技术感兴趣,可以尝试一下英语版本。