当前位置: 首页 - 手机 - 科技发展的好处百态如同10小时长河中的音符随时准备与你和声相融让ChatGPT以听觉为桥梁跨越疑惑与

科技发展的好处百态如同10小时长河中的音符随时准备与你和声相融让ChatGPT以听觉为桥梁跨越疑惑与

2025-02-23 手机 0

机器之心报道

编辑:张倩

在ChatGPT的模仿者中,一项突破性的技术已经实现了将语音文档粘贴到输入框的功能。

随着大型语言模型(LLM)的普及,它们正在重塑各个行业的用户体验。然而,开发基于人类声音的生成式人工智能产品仍然面临艰巨挑战,因为音频文件对于大型语言模型来说是一个难题。

将LLM应用于音频文件的一个关键难点是,它们受限于其上下文窗口。在一个长时间录制的声音内容被输入LLM之前,需要先转换成文字。与此同时,大量长篇文献和多小时会议记录等复杂数据对绕过LLM上下文窗口限制提出了更高要求。但在实际工作场景中,我们常需依靠LLM处理这些庞大的语音资料,比如从数小时会议纪录中提取关键信息,或寻找访谈中的某个问题答案……

近期,AssemblyAI这家专注于语音识别的人工智能公司推出了名为LeMUR的新模型。这就像ChatGPT能够处理大量PDF文档一样,LeMUR能接收10小时以上录音并进行转写、分析,然后提供核心要素总结以及回答用户的问题。

安全可靠输出保证

由于LeMUR内置有严格的安全措施和内容审查系统,它能够提供一系列来自大型语言模型回应,这些回应极少会出现有害或偏见性质的情报。

页面右侧,我们可以直接向LeMUR提出要求,如整理采访内容或解答疑问。看似轻松地完成任务后,其性能似乎仅局限于英文环境。感兴趣读者可以尝试一下它是否适用于中文环境。

标签: 华为所有手机型号大全oppo手机型号大全柏青oppo 手机荣耀手机能升级鸿蒙系统吗