2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的技术使得用户能够直接将语音文件粘贴到输入框中。这种大型语言模型(LLM)的应用正在重塑各个行业的用户体验。然而,开发一个以人类语音为核心的生成式人工智能产品仍然面临着挑战,因为它需要处理和理解复杂的声音信息。
其中一个主要难题是将长时间的音频文件转换成可供 LLM 处理的文本格式。这一过程受到上下文窗口限制,它决定了 LLM 可以同时处理多少文字或声音数据。如果我们想要从几个小时甚至更长时间的会议记录或者访谈录中提取关键信息,这种限制就变得尤为棘手。
为了克服这一障碍,最近 AssemblyAI 这家专注于语音识别技术的公司推出了名为 LeMUR 的新模型。这个模型可以像对待数十页厚的大型 PDF 文件一样高效地处理10小时以上的声音数据,并且能够提供精准、快速而又深入地总结这些内容,同时还能回答用户的问题,就像是有能力迅速浏览整个资料库并找到答案的人那样。
安全与可靠性保证
LeMUR 加入了多层安全措施和内容过滤系统,因此它能够提供一种经过严格筛选且不含有害或偏见言论回应给用户。
在页面右侧,我们可以轻松地要求 LeMUR 为我们梳理采访内容或者解答疑问。通过这种方式,LeMUR 显得非常灵活且易于使用:
尽管目前看来 LeMUR 目前尚未支持中文,但对于那些对此感兴趣的人来说,这是一个值得探索的话题。在不远未来,或许会有一天,我们也能享受到这样的便捷服务,无论是在工作还是个人生活中的任何场合都能得到即时响应。