2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的技术使得用户能够直接将语音文件粘贴到输入框中。这种大型语言模型(LLM)的应用正在重塑各个行业的用户体验。然而,开发一个以人类语音为核心的生成式人工智能产品仍然面临着挑战,因为它需要处理和理解复杂的音频数据。
其中一个关键难题是将长时间的音频文件转换成可供 LLM 处理的大量文本。这一过程受到上下文窗口限制,随着音频长度增加,这一限制变得越来越严峻。但在实际工作场景中,我们往往需要处理几小时甚至更长时间的会议录音、访谈等,以提取关键信息或寻找特定问题的答案。
为了克服这一局限性,一家名为 AssemblyAI 的公司推出了 LeMUR 模型,它能像对待数十页 PDF 文档一样高效地处理长达 10 小时的声音资料。LeMUR 不仅可以进行准确的人工智能转录,还能自动总结重要内容,并回答用户的问题,就像拥有自己的知识库一样。
安全与可靠性保障
LeMUR 采用了多层安全措施和内容过滤系统,确保输出始终保持专业且无害。此外,由于其设计考虑到了语言偏见的问题,因此输出回应通常不会包含有害或带有偏见的情绪。
在页面右侧,我们可以轻松地要求 LeMUR 对采访内容进行摘要或者回答问题。该系统似乎已经能够很好地完成这些任务。不过,对于中文支持方面,LeMUR 目前还未提供支持。如果你对这项技术感兴趣,可以尝试一下亲自体验一下它的一些功能。