科技公司的耳朵ChatGPT降临10小时语音宝库提问如同呼唤自然之声

2025-02-23 手机 0

机器之心报道

编辑：张倩

在 ChatGPT 的模仿者中，一项突破性技术使得用户能够直接将语音文件粘贴到输入框中。随着大型语言模型（LLM）的普及，它们正在重塑各个行业的用户体验。不过，开发一款以人类语音为核心的生成式人工智能产品仍然充满挑战，因为处理音频文件对这些模型来说是一个棘手的问题。

一个困难之处在于，大型语言模型受到其上下文窗口限制。在将音频文件输入到LLM之前，它需要先被转换成文本。与此同时，随着音频文件长度的增加，这种转换过程变得更加复杂。但是，在实际工作场景中，我们往往需要处理那些几小时甚至更长时间的语音录制，比如从会议记录或访谈中提取关键信息。

最近，AssemblyAI——一家专注于语音识别的人工智能公司——推出了名为LeMUR的一个新模型。这个模型就像ChatGPT那样，可以轻松处理几十页长的PDF文档一样，它能够准确地将长达10小时的声音数据转录，并提供精准的总结和问题回答服务。

安全可靠且无偏见

由于LeMUR内置了安全措施和内容过滤器，它可以保证输出结果既可靠又无害。这意味着用户可以放心地使用这个工具来获取来自LLM的大量信息，而不必担心它们会产生有害或者带有偏见的话题。

在页面右侧，我们可以要求LeMUR帮我们梳理采访内容或回答疑问。尽管目前它还无法理解中文，但对于英语母语者的来说，这是一款非常实用的工具。如果你对这项技术感兴趣，不妨去尝试一下看看它能做什么惊人的事情！

标签：美图手机官网、手机新品、华为中关村手机官网报价、华为最新出的手机、山寨手机