2025-02-23 手机 0
机器之心专报
编辑:张倩
突破性更新:语音转文本技术革新,ChatGPT式大型语言模型接受长篇语音输入。
在科技界的每一次进步中,大型语言模型(LLM)都在改变用户对各行业服务的期望。然而,将人类般自然的交流体验带入生成式人工智能产品,尤其是那些以人类语音为基础的系统,却仍面临着诸多挑战。
其中一个关键难题便是将LLM应用于复杂而庞大的音频文件。这些文件必须先被转换成可供LLM理解和处理的文本形式。这一过程对于超越了LLM上下文窗口限制变得愈发棘手。而工作场景中,我们往往需要处理从数小时长会议录音到深度访谈等各种类型及长度极为不同的语音内容,比如从几小时长会议记录中提取核心要点、或是在数十分钟访谈中精准定位某个问题答案……
近日,一家领先的声音识别AI公司AssemblyAI推出了名为LeMUR的大型语言模型。在ChatGPT能够轻松处理大量PDF文档时,LeMUR则展示了它可以高效地将10小时以上的录音数据进行全面的转录与分析,并帮助用户提炼出最重要信息,同时还能回答他们的问题。
安全可靠输出保障
由于LeMUR内置了严格的人工智能安全措施和内容过滤机制,它能够提供经过验证且无害、无偏见的回应给用户。
页面右侧,您可以直接要求LeMUR总结特定采访内容或者解答您的问题。通过这项技术,LeMUR似乎已经足够灵活来完成各种任务:
不过目前看来,LeMUR并不支持中文操作。如果您对此感兴趣,可以尝试一下这项最新技术。