2025-02-23 手机 0
机器之心报道
编辑:张倩
在ChatGPT的模仿者中,一项新技术使得我们能够直接将语音文件粘贴到输入框中。随着大型语言模型(LLM)的普及,它们正在重塑各个行业用户的期望。但是,开发一款以人类语音为核心的生成式人工智能产品仍然面临挑战,这些挑战主要来自于音频文件对LLM构成的困难。
将LLM应用于长时间的音频文件的一个关键障碍是其上下文窗口限制。在处理一个长度不等的大量音频文件之前,它们需要被转换成可读的文本格式。随着录音时长增加,对应需要克服更大的工程上的难题。不过,在实际工作场景中,我们经常需要这些工具来处理数小时甚至数天内产生的大量录音数据,比如从一个会议记录里提取关键信息或者从一段访谈中找到特定问题答案等。
最近,AssemblyAI公司推出了名为LeMUR的一款新型语音识别AI模型。这就像ChatGPT可以处理几十页厚重资料一样,LeMUR能够快速地完成10小时长度录音内容转写、整理,并帮助用户提炼出核心要点和回答他们的问题。
安全与准确性保证
由于LeMUR集成了严格的安全措施和内容过滤系统,它能提供经过LLM训练后的回应,以确保输出既可靠又不会包含有害或带偏见的情绪。
在页面右侧,我们可以轻松地要求LeMUR总结访谈内容或回答问题。通过它,大部分任务都能迅速高效完成。
然而,目前看起来LeMUR似乎还没有支持中文。如果你对这项技术感兴趣,可以去尝试一下它英文版本是否适用。