科技发展的好处百态如同10小时长河中的音符随时准备与你和声相融让ChatGPT以听觉为桥梁跨越疑惑与

2025-02-23 手机 0

机器之心报道

编辑：张倩

在ChatGPT的模仿者中，一项突破性的技术已经实现了将语音文档粘贴到输入框的功能。

随着大型语言模型（LLM）的普及，它们正在重塑各个行业的用户体验。然而，开发基于人类声音的生成式人工智能产品仍然面临艰巨挑战，因为音频文件对于大型语言模型来说是一个难题。

将LLM应用于音频文件的一个关键难点是，它们受限于其上下文窗口。在一个长时间录制的声音内容被输入LLM之前，需要先转换成文字。与此同时，大量长篇文献和多小时会议记录等复杂数据对绕过LLM上下文窗口限制提出了更高要求。但在实际工作场景中，我们常需依靠LLM处理这些庞大的语音资料，比如从数小时会议纪录中提取关键信息，或寻找访谈中的某个问题答案……

近期，AssemblyAI这家专注于语音识别的人工智能公司推出了名为LeMUR的新模型。这就像ChatGPT能够处理大量PDF文档一样，LeMUR能接收10小时以上录音并进行转写、分析，然后提供核心要素总结以及回答用户的问题。

安全可靠输出保证

由于LeMUR内置有严格的安全措施和内容审查系统，它能够提供一系列来自大型语言模型回应，这些回应极少会出现有害或偏见性质的情报。

页面右侧，我们可以直接向LeMUR提出要求，如整理采访内容或解答疑问。看似轻松地完成任务后，其性能似乎仅局限于英文环境。感兴趣读者可以尝试一下它是否适用于中文环境。

标签：华为所有手机型号大全、 oppo手机型号大全、柏青、 oppo 手机、荣耀手机能升级鸿蒙系统吗

上一篇：水质检测成本分析探索技术进步与监测标准对价格影响的机制

下一篇：上证指数之舞从熔断到飙升的奇幻交响曲

科技发展的好处百态如同10小时长河中的音符随时准备与你和声相融让ChatGPT以听觉为桥梁跨越疑惑与

地图编辑器高级地形设计与城市规划工具

家具材质分析实木合成树脂和金属选择最耐用者

家装简约装修效果图大全我来教你如何轻松搞定简约风格的家居设计

逆袭居家小卧室装修效果图大全2013

笔记本排行榜中的灵感启航vivo X70 Pro独白体验捕捉纯粹的时尚风景