科技让生活更美好的ChatGPT10小时语音库想问啥就问六年级解锁新篇章

2025-02-23 手机 0

机器之心报道

编辑：张倩

在 ChatGPT 的模仿者中，一项突破性的技术使得用户能够直接将语音文件粘贴到输入框中。这种大型语言模型（LLM）的应用正在重塑各个行业的用户体验。然而，开发一个以人类语音为核心的生成式人工智能产品仍然面临着挑战，因为它需要处理和理解复杂的声音信息。

其中一个主要难题是将长时间的音频文件转换成可供 LLM 处理的文本格式。这一过程受到上下文窗口限制，它决定了 LLM 可以同时处理多少文字或声音数据。如果我们想要从几个小时甚至更长时间的会议记录或者访谈录中提取关键信息，这种限制就变得尤为棘手。

为了克服这一障碍，最近 AssemblyAI 这家专注于语音识别技术的公司推出了名为 LeMUR 的新模型。这个模型可以像对待数十页厚的大型 PDF 文件一样高效地处理10小时以上的声音数据，并且能够提供精准、快速而又深入地总结这些内容，同时还能回答用户的问题，就像是有能力迅速浏览整个资料库并找到答案的人那样。