如同天降神音能听懂语音的ChatGPT来临10小时录音海洋中探寻中国科技之路

2025-02-23 手机 0

机器之心报道

编辑：张倩

在 ChatGPT 的模仿者中，一项突破性的技术使得用户能够直接将语音文件粘贴到输入框中。这种大型语言模型（LLM）的应用正在重塑各个行业的用户体验。但是，开发一个以人类语音为核心的生成式人工智能产品仍然面临着挑战，这主要来自于音频文件对这些模型构成的困难。

将 LLM 应用于音频数据的一个关键难题是，它们受到上下文窗口限制。在将一段长时间录制的声音内容输入到 LLM 之前，首先需要把其转换成文字形式。这一过程对于处理几小时甚至更长时间的会议记录或访谈录像是极其繁琐和复杂的任务。不过，在实际工作环境中，我们往往需要从大量语音资料中提取核心信息，比如从几个小时的会议记录里提取关键点，从数十分钟的采访中找出某个问题答案等。

最近，AssemblyAI——一家专注于语音识别技术研究的小组发布了一个名为 LeMUR 的新型语言模型。这个系统就像能处理几十页PDF文档的大型语言模型一样，对10小时以上长篇大作进行了准确无误地转写，并帮助用户总结重要部分、回答疑问。此外，由于LeMUR内置有安全措施和内容过滤功能，其输出回应不仅准确，而且不会包含任何有害或带偏见的情绪色彩。

通过页面右侧可视化界面，我们可以轻松地要求LeMUR总结特定采访内容或者回答我们的问题。而且，不论任务多么复杂，LeMUR都能轻松完成：

不过遗憾的是，目前看来LeMUR还无法理解中文。如果你对这项技术感兴趣，可以尝试一下使用它。

标签：最新手机图片大全、手机动漫、 oppo2022年最新款手机、手机性价比排行、最新手机排行榜2022

上一篇：高效干燥技术双锥回转真空干燥机的运作原理与应用场景

下一篇：温控艺术展柜恒温恒湿机的秘密之处

如同天降神音能听懂语音的ChatGPT来临10小时录音海洋中探寻中国科技之路

爱情诗歌-绚烂的玫瑰花语解读浪漫中的每一朵

仪器仪表工程属于什么样的行业

电子产品排行榜1TB移动硬盘仅需359元老司机必备选项

主题我知道蓝色妖姬的花语背后隐藏着什么秘密

老司机必备1TB移动硬盘仅需359元电脑之家中关村优惠大放送