2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性技术使得用户能够直接将语音文件粘贴到输入框中。随着大型语言模型(LLM)的普及,它们正在重塑各个行业的用户体验。不过,开发一款以人类语音为核心的生成式人工智能产品仍然充满挑战,因为处理音频文件对这些模型来说是一个棘手的问题。
一个困难之处在于,大型语言模型受到其上下文窗口限制。在将音频文件输入到LLM之前,它需要先被转换成文本。与此同时,随着音频文件长度的增加,这种转换过程变得更加复杂。但是,在实际工作场景中,我们往往需要处理那些几小时甚至更长时间的语音录制,比如从会议记录或访谈中提取关键信息。
最近,AssemblyAI——一家专注于语音识别的人工智能公司——推出了名为LeMUR的一个新模型。这个模型就像ChatGPT那样,可以轻松处理几十页长的PDF文档一样,它能够准确地将长达10小时的声音数据转录,并提供精准的总结和问题回答服务。
安全可靠且无偏见
由于LeMUR内置了安全措施和内容过滤器,它可以保证输出结果既可靠又无害。这意味着用户可以放心地使用这个工具来获取来自LLM的大量信息,而不必担心它们会产生有害或者带有偏见的话题。
在页面右侧,我们可以要求LeMUR帮我们梳理采访内容或回答疑问。尽管目前它还无法理解中文,但对于英语母语者的来说,这是一款非常实用的工具。如果你对这项技术感兴趣,不妨去尝试一下看看它能做什么惊人的事情!