2025-02-23 手机 0
机器之心专报
编辑:张倩
突破性进展!ChatGPT风格的语音输入功能现已上线。
大型语言模型(LLM)的普及正在重塑各行各业的用户体验。尽管开发以人声为基础的人工智能生成工具仍面临诸多挑战,尤其是处理音频文件这一难题。
将LLM应用于长篇音频资料的关键障碍在于这些模型受限于其上下文窗口大小。在将一段长时间录制的声音数据输入LLM之前,它首先必须被转换成可读的文字形式。随着音频文件长度增加,克服这项技术壁垒所需努力也相应地加剧。而工作环境中,我们往往需要处理数小时甚至数天内产生的大量语音资料,如从会议记录中提取核心信息、从深度访谈中解答特定问题等。
最近,一家领先的语音识别科技公司AssemblyAI推出了一个名为LeMUR的大型语言模型。这款新产品就像ChatGPT那样能够轻松处理厚重文献一样,能够对10小时以上长时间录制的声音进行准确识别、分析,并且能够帮助用户提炼出主要内容,同时回答他们的问题。
安全可靠输出保证
由于LeMUR集成了严格的安全措施和内容过滤系统,它能提供经过训练的大型语言模型生成的一系列回应,这些回应极少可能包含有害或带偏见的情绪色彩。
在页面右侧,我们可以直接向LeMUR提出要求,比如总结采访内容或回答问题。看似简单却实则不易的一系列任务都能轻松完成:
然而,目前LeMUR似乎尚未支持中文。如果您对此感兴趣,可以立即尝试一下它的功能。