2025-02-23 手机 0
机器之心报道
编辑:张倩
在大型语言模型(LLM)与人类交互的新时代,ChatGPT这类AI助手终于迎来了语音输入的革命性变化。随着技术的进步,大型语言模型正逐渐改变各行各业用户对服务的期待。不过,将这些模型应用于以人类语音为基础的大规模生成式人工智能产品仍面临诸多挑战,其中之一就是如何高效地将复杂且庞大的音频文件转化为可被LLM理解和处理的文本形式。
一旦我们能够克服这一技术难题,利用LLM就可以变得更加便捷和强大。在工作场景中,我们往往需要处理长达数小时甚至数天的会议录音、访谈记录等内容,而通过LLM,我们可以轻松提取关键信息或回答特定问题。
最近,AssemblyAI公司推出了一个名为LeMUR的大型语音识别系统,它能像ChatGPT那样处理大量文本数据一样高效地分析长达10小时以上的声音资料。LeMUR不仅能够准确无误地将这些长时间录制的声音转换成文字,还能帮助用户总结核心信息并回答他们的问题。
此外,由于LeMUR内置了严格的安全措施和内容过滤功能,它能够提供一种可靠且安全输出,这意味着它所生成的回应极少会包含有害或偏见的情绪。
在页面右侧,我们可以直接向LeMUR提出要求,比如要它总结某段采访内容或者回答我们的问题。据观察,LeMUR似乎已经非常擅长完成这些任务。不过,对于中文支持方面,该系统似乎还未完全开启门户。如果你对这种前沿技术充满好奇,可以亲自尝试一下探索其能力边界。