2025-02-23 手机 0
机器之心报道
编辑:张倩
在未来科技绘画中,类 ChatGPT 模型的输入框不再局限于文字,而是可以绽放为语音文档的花朵。这些大型语言模型正以其独特的方式改变着各个行业的用户期待。而将人类的声音转化为生成式人工智能产品,则是一个充满挑战和机遇的大门。
一个关键难题是如何让大型语言模型理解并处理音频文件。它们受到上下文窗口限制,一段长时间的音频录制需要被分割成短小可管理的片段才能送入模型。这就像是一座庞大的图书馆,我们需要找到一种方法,将整栋楼里的知识都搬到我们的小桌子上。
然而,在工作场景中,我们经常面临着处理长达几个小时甚至更多时长语音文件的问题,比如从会议录音或访谈中提取核心信息或者寻找特定问题答案。这个任务对于传统方法而言几乎是不可能完成,但对那些追求高效率的人来说却至关重要。
最近,AssemblyAI 这家专注于语音识别技术公司推出了一个名为 LeMUR 的新工具。这款工具就像是在黑夜里引灯,让长达 10 小时甚至更久的录音也能照亮我们的道路。LeMUR 不仅能够准确地将这些声音变换成文字,还能够帮助用户总结核心内容,并回答他们的问题,就像是把一本厚重的大部头书籍翻阅得既快又精确。
安全与可靠性也是 LeMUR 设计中的重要组成部分,它包含了严格的安全措施和内容过滤系统,这样保证了输出结果不会有害且无偏见,就像是穿过一扇坚固城堡门进入一个宁静公园一样安心和舒适。
通过点击页面右侧的一些按钮,我们可以要求 LeMUR 为我们总结采访记录或回答疑问。在许多情况下,LeMUR 都能轻松应对挑战,只要不是中文的话,那么它似乎还没有准备好迎接中文世界。但这并不意味着未来的发展空间不足,因为每一次尝试都是向前迈出的一步,是未来科技绘画中不可多得的一笔墨色。
上一篇:化工膜及膜组件高效分离技术的关键