2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的技术使得用户能够直接将语音文件粘贴到输入框中。这种大型语言模型的应用正在彻底改变各行各业的用户体验。然而,开发一种以人类语音为核心的生成式人工智能产品一直是个棘手的问题,因为处理音频文件对这些模型来说是一个巨大的挑战。
让大型语言模型适应长时间的音频录制是其中一个关键难题。由于它们受到上下文窗口限制,大型语言模型只能处理短暂的一段话。如果一段长达数小时的会议录音或访谈想要被分析,就必须先转换成文字。但这又加剧了工程上的复杂性——如何才能有效地绕过这些上下文限制呢?
正是在这样的背景下,AssemblyAI公司推出了名为LeMUR的大型新模型。这款技术就像ChatGPT一样,它能够轻松处理几十页PDF文档一样,LeMUR可以将10小时以上的声音资料进行自动转写、整理,并提取出核心信息,还能回答用户的问题。
安全可靠
值得一提的是,LeMUR内置了严格的安全措施和内容过滤系统,这意味着它所提供给用户回应时不会出现有害或带有偏见的话语。
在页面右侧,我们可以请求LeMUR总结采访内容或者回答问题。而且看起来,LeMUR似乎已经准备好迎接各种任务:
尽管如此,目前还没有支持中文操作。不过,对于感兴趣的人们来说,这仍然是一个值得尝试的事情。
下一篇:方钢管建筑用途的耐腐蚀钢管