2025-02-23 手机 0
机器之心报道
编辑:张倩
在 ChatGPT 的模仿者中,一项突破性的功能现已实现:直接将语音文件粘贴至输入框。
随着大型语言模型(LLM)的普及,各行各业的用户期望也随之变化。然而,将人类语音转化为生成式人工智能产品仍面临艰难的挑战——尤其是对于那些以音频文件为基础的大型语言模型来说。
将 LLM 应用于长篇幅的音频数据最大的障碍之一,在于这些数据需要首先被转换成文本形式。这一过程在时间上极为耗时,而且当涉及到数小时甚至数天的长篇录音时,这种转换几乎是不可能完成的。不过,在工作场景中,我们往往需要处理这样的长篇录音,比如从一个几个小时会议记录中提取关键信息,从一个访谈中寻找特定问题答案等……
最近,AssemblyAI 通过推出名为 LeMUR 的新技术,使得这一切变得可能。就像 ChatGPT 能够处理几十页厚重的 PDF 文档一样,LeMUR 可以轻松地对10个小时以上的声音进行整理、分析,并且帮助用户总结核心内容和回答问题。
安全可靠,精准输出
由于 LeMUR 内置了严格的人工智能安全措施和内容过滤系统,它能够提供高质量、高标准的回应,不会出现有害或带有偏见的情绪表达。
在页面右侧,我们可以直接要求 LeMUR 对采访内容进行摘要或者回答我们的疑问。LeMUR 在执行任务方面表现出了惊人的效率:
不过,由于目前还不支持中文使用,如果你对此感兴趣,可以亲自尝试一下它最新版本。
上一篇:风的织梦喷漆房中的送与排
下一篇:无问东西深邃宇宙的奥秘