科技创新素材摘抄200字如同播种田地ChatGPT的语音能力让我们能问尽心中疑惑10小时的录音是我们

2025-02-23 手机 0

机器之心报道

编辑：张倩

在 ChatGPT 的模仿者中，一项突破性的技术使得用户能够直接将语音文件粘贴到输入框中。这种大型语言模型（LLM）的应用正在重塑各个行业的用户体验。然而，开发一个以人类语音为核心的生成式人工智能产品仍然面临着挑战，因为它需要处理和理解复杂的音频数据。

其中一个关键难题是将长时间的音频文件转换成可供 LLM 处理的大量文本。这一过程受到上下文窗口限制，随着音频长度增加，这一限制变得越来越严峻。但在实际工作场景中，我们往往需要处理几小时甚至更长时间的会议录音、访谈等，以提取关键信息或寻找特定问题的答案。

为了克服这一局限性，一家名为 AssemblyAI 的公司推出了 LeMUR 模型，它能像对待数十页 PDF 文档一样高效地处理长达 10 小时的声音资料。LeMUR 不仅可以进行准确的人工智能转录，还能自动总结重要内容，并回答用户的问题，就像拥有自己的知识库一样。

安全与可靠性保障

LeMUR 采用了多层安全措施和内容过滤系统，确保输出始终保持专业且无害。此外，由于其设计考虑到了语言偏见的问题，因此输出回应通常不会包含有害或带有偏见的情绪。

在页面右侧，我们可以轻松地要求 LeMUR 对采访内容进行摘要或者回答问题。该系统似乎已经能够很好地完成这些任务。不过，对于中文支持方面，LeMUR 目前还未提供支持。如果你对这项技术感兴趣，可以尝试一下亲自体验一下它的一些功能。

标签：目前排名第一的手机、华为最新的手机是什么、 2023买手机推荐、最好手机排名前十、国产最值得买的手机