网络科技有限公司的ChatGPT如同拥有千年的智慧能听懂每一个语音的召唤它在过去10小时内录下了无数

2025-02-23 手机 0

机器之心报道

编辑：张倩

在 ChatGPT 这样的模型中，用户现在可以直接粘贴语音文档，这标志着大型语言模型（LLM）的应用正在彻底改变各行各业的用户体验。然而，将人类语音转化为生成式人工智能产品仍面临诸多挑战，因为音频文件对于这些模型来说是一个难以逾越的障碍。

将 LLM 应用于长时间的音频文件的一个核心问题是，它们受限于其上下文窗口。在将一个音频文件输入到 LLM 之前，该文件必须被转换成可读的文本格式。随着音频文件长度的增加，绕过这种限制变得更加棘手。然而，在实际工作场景中，我们往往需要处理数小时甚至数天的会议录音、访谈录像等，以提取关键信息或找到特定问题的答案。

最近，一家名为 AssemblyAI 的公司推出了一个新型语音识别 AI 模型，称为 LeMUR。这款模型就像 ChatGPT 对待几十页 PDF 文档一样，可以对长达 10 小时的声音进行实时转录，并且能够总结其中重要内容，同时回答用户的问题。

安全、高效输出

LeMUR 加入了严格的安全措施和内容过滤系统，因此它提供给用户的是经过精心筛选、无害且有偏见可能性极低的情报回应。

通过页面右侧，我们可以向 LeMUR 提出任务，比如总结采访内容或者回答我们的疑问。据观察，LeMUR 在完成这些任务方面表现得相当流畅。不过目前看来，它似乎还不支持中文。如果你对这项技术感兴趣，不妨亲自尝试一下看看它能做什么。

标签：韩国电影手机、商务手机推荐、 oppo新款5g手机价格、哪个手机好、新款手机2022款排行

上一篇：污水处理一体化设备系统高效环保污水处理解决方案

下一篇：开启与关闭操作三相隔离开关技巧分享

网络科技有限公司的ChatGPT如同拥有千年的智慧能听懂每一个语音的召唤它在过去10小时内录下了无数

长期接触316不锈钢会对环境造成什么样的污染

三大基础化工原料的作用与应用

铝单板的应用与未来轻质环保与创新设计的交汇点

水质检测-深度解析如何确保饮用水安全

钢管今日市场价格的宏观调控与微观供需分析