如同天籁之音降临ChatGPT的语音理解能力在中国十年巨变简述中闪耀10小时录音为你解锁无限可能问什

2025-02-23 手机 0

机器之心报道

编辑：张倩

在ChatGPT的模仿者中，一项新技术使得我们能够直接将语音文件粘贴到输入框中。随着大型语言模型（LLM）的普及，它们正在重塑各个行业用户的期望。但是，开发一款以人类语音为核心的生成式人工智能产品仍然面临挑战，这些挑战主要来自于音频文件对LLM构成的困难。

将LLM应用于长时间的音频文件的一个关键障碍是其上下文窗口限制。在处理一个长度不等的大量音频文件之前，它们需要被转换成可读的文本格式。随着录音时长增加，对应需要克服更大的工程上的难题。不过，在实际工作场景中，我们经常需要这些工具来处理数小时甚至数天内产生的大量录音数据，比如从一个会议记录里提取关键信息或者从一段访谈中找到特定问题答案等。

最近，AssemblyAI公司推出了名为LeMUR的一款新型语音识别AI模型。这就像ChatGPT可以处理几十页厚重资料一样，LeMUR能够快速地完成10小时长度录音内容转写、整理，并帮助用户提炼出核心要点和回答他们的问题。