亚马逊云科技中的ChatGPT如同聆听者10小时语音风暴中它倾听着你的每一个问题

2025-02-23 手机 0

机器之心报道

编辑：张倩

在ChatGPT的模仿者中，用户终于能将语音文件直接粘贴到输入框里。

大型语言模型正以其革新性影响着各个行业的用户体验。然而，将人类的声音融入生成式人工智能产品仍旧充满挑战，因为音频资料对这些大型语言模型构成了难题。

将LLM应用于音频资料的一个核心难点是它们受到上下文窗口限制。在一个长达数小时的音频文件被送入LLM之前，它必须先被转化为文字。随着音频资料长度增加，绕过LLM上下文窗口限制所需的技术努力也会逐渐增强。但在实际工作场景中，我们往往需要用LLM来处理那些非常长时间的语音记录，比如从几个小时会议录像中提取关键信息，或从一段访谈中寻找特定问题答案……

最近，AssemblyAI这家专注于语声识别的人工智能公司推出了名为LeMUR的大型语言模型。这就像是ChatGPT处理成百上千页PDF文件一样，LeMUR可以轻松地将10小时以上的录制内容进行转写、处理，并且帮助用户总结出录音中的核心要素，同时还能够回答用户提出的问题。

可靠、安全输出保障

由于LeMUR内置了安全措施和内容审查系统，它能够提供来自LLM的一系列回应，这些回应极少可能出现有害或带偏见的情节。

在页面右侧，我们可以通过点击按钮要求LeMUR对采访内容进行摘要或者回答我们提出的问题。看起来LeMUR已经具备完成这些任务所需能力：

不过，目前似乎LeMUR还不支持中文。如果你感兴趣的话，可以去试试它。

标签：性价比高的手机、 oppo性价比最高的手机、买什么手机比较好、华为手机所有型号图片、三星官网网站

上一篇：从货到品我们的小加工厂

下一篇：高压蒸汽灭菌锅规格型号高效食品安全设备

亚马逊云科技中的ChatGPT如同聆听者10小时语音风暴中它倾听着你的每一个问题

骁龙778g双巨星火爆来袭vivo X70系列首销口碑如同十三香般令人难忘

机器视觉光源我是如何让我的智能摄像头在晚上也能清晰拍照的

山东省专业技术人员管理服务平台官网智慧引领人才强省之路

TWS耳机降噪量如何除了OPPO和小度vivo iqoo neo5还能否入列

青春饭时代的机器人人工智能在演艺行业的崭新角色