当前位置: 首页 - 科技 - 科学突破GPT-4即将大显身手百度是否能阻挡这波微软的多模态革命

科学突破GPT-4即将大显身手百度是否能阻挡这波微软的多模态革命

2025-01-14 科技 0

机器之心报道

编辑:小舟、泽南

大家都在猜 GPT-4 发布时间,现在有人提前公布答案了,还是微软自己的 CTO。我们知道,引爆如今科技界军备竞赛的 ChatGPT 是在 GPT-3.5 上改进得来的,OpenAI 很早就预告 GPT-4 将会在今年发布。最近各家大厂争相入局的行动似乎加快了这个进程。

最新消息是,万众期待的 GPT-4 下周就要推出了:在 3 月 9 日举行的一场名为「AI in Focus - Digital Kickoff」的线下活动中,四名微软德国员工展示了 GPT 系列等大型语言模型(LLM)的颠覆性力量,以及 OpenAI 技术应用于 Azure 产品的详细信息。在活动中,微软德国首席技术官 Andreas Braun 表示 GPT-4 即将发布,他说:「我们将在下周推出一个多模态的大型语言模型,这个模型将提供完全不同的可能性 —— 比如视频生成能力。」

Braun 将语言大模型形容为游戏规则改变者,因为人们利用这种方法让机器理解自然语言时,大量之前只能由人类阅读和理解的内容也能被统计方式理解。他还指出,这项技术已经发展到基本上「适用于所有语言」:你可以用德语提问,然后用意大利语得到答案。借助多模态,使得微软和 OpenAI 的「模型变得全面」。

与此同时,这项技术对业界产生了深远影响。微软德国公司首席执行官 Marianne Janik 全面谈到了人工智能对业界的颠覆性影响。她强调了人工智能价值创造潜力,并表示当前的人工智能发展和 ChatGPT 是「iPhone 发布一样的时刻」。她说:「这是不是要代替人类工作,而是帮助人们以不同于以往的方式完成重复性任务。」

改变并不一定意味着失业。Janik 强调说,这意味着「许多专家会开始利用 AI 实现价值增长」。传统工作行为正在发生变化,由于新的可能性出现,也会产生全新的职业。她建议公司成立内部「能力中心」,培训员工使用人工智能并将想法整合到项目中。此外,她还强调,微软不会使用客户数据来训练这些新兴的大型语言模型(LLM)。

实际用例方面,有两位 AI 技术专家 Clemens Sieber 和 Holger Kenn 提供了解释。在他们团队目前处理具体用例时,他们讲解了涉及到的技术。Kenn 解释了一些关于多模态的人工智能,它不仅可以将文本翻译成图像,还可以翻译成音乐和视频。此外,他还讨论嵌入,用来表征内置到文本中的内部表示。

Clemens Siebler 用实例说明今天已经成为可能的事情,如把电话呼叫直接记录成文本。这可以节省大量时间,比如一家荷兰客户每天节省 500 个工作小时。而且,该项目原型是在两个小时内创建完毕,一名开发人员只需两周时间即可完成该项目。他介绍称,最常见三个用例包括回答只有员工才能访问的情报、辅助文档处理以及半自动化口语呼叫中心服务。

当被问及操作可靠性和事实保真度时,Siebler 表示 AI 不总是能够正确回答,因此需要进行验证。为了解决这个问题,他们正在创建置信度指标,并建立反馈循环,以便迭代改进这一过程。此外,他们还强调,在实际应用中,对话系统仍然是一个开放的问题领域,其准确率随着不断学习而提高,但仍存在误差。

看起来,在 AI 大模式竞赛中领先方也加速步伐。就在过去一周左右接连发布展示多模态论文 Kosmos-1 和 Visual ChatGPT 后,我们发现这家公司显然非常支持多模态,将其视为使感知与 LLM 保持一致的一个关键点,从而使单个 AI 模式能够既看到文字图片又能说话,就像是实现了一种跨越感知边界的人类交流能力。

紧接着他们宣布即将举办另一次重要会议,即 3 月 16 日,当时 CEO 萨蒂亚・纳德拉亲自上台演讲,不知他们是否会在那次活动上正式发布 GPT-4。这对于追逐同日百度推出的聊天机器人来说,无疑是一次重大挑战。而据报道百度正忙碌地赶制最后期限前的产品测试,并计划分阶段推出文心一言功能,其中春节后李彦宏已要求包括自动驾驶部门在内全体研究团队尽快向英伟达 A100 进行升级支持,为开发提供更强大的计算资源。

未来几天里,我们或许会见证科技巨头们如何通过创新工具再次重塑我们的生活空间,每一步都是它们向未来的探索旅途上的奋斗历程之一。如果真的如此,那么无论哪家的方案最终获胜,都能带给我们更加精彩、新奇的事物。

参考内容:

https://www.heise.de/news/GTP-

...

标签: 科技引领未来现代高科技有哪些目前的最新技术从今天开始做科技大佬二年级科技小制作