百度急袭GPT-4微软引领多模态大模型新篇章

2025-01-14 科技 0

机器之心报道

编辑：小舟、泽南

大家都在猜 GPT-4 发布时间，现在有人提前公布答案了，还是微软自己的 CTO。我们知道，引爆如今科技界军备竞赛的 ChatGPT 是在 GPT-3.5 上改进得来的，OpenAI 很早就预告 GPT-4 将会在今年发布。最近各家大厂争相入局的行动似乎加快了这个进程。

最新消息是，万众期待的 GPT-4 下周就要推出了：在 3 月 9 日举行的一场名为「AI in Focus - Digital Kickoff」的线下活动中，四名微软德国员工展示了 GPT 系列等大型语言模型（LLM）的颠覆性力量，以及 OpenAI 技术应用于 Azure 产品的详细信息。

在活动中，微软德国首席技术官 Andreas Braun 表示 GPT-4 即将发布，他强调，这是一个多模态的大模型，将提供完全不同的可能性 —— 如视频生成能力。他形容这种方法为游戏规则改变者，因为人们让机器理解自然语言时，它们就能以统计方式理解以前只能由人类阅读和理解的内容。

与此同时，这项技术已经发展到基本上「适用于所有语言」：你可以用德语提问，然后用意大利语得到答案。借助多模态，大型语言模型正变得全面，并且能够处理图像、音乐和视频数据，使它们不仅仅局限于文本处理。

微软德国公司首席执行官 Marianne Janik 全面谈到了人工智能对业界的颠覆性影响。她强调了人工智能价值创造潜力，并表示当前的人工智能发展和 ChatGPT 是「iPhone 发布一样的时刻」。她表示，这不是要代替人类工作，而是帮助人们以不同于以往的方式完成重复性任务。

Janik 强调说，这意味着「许多专家会开始利用 AI 实现价值增长」。传统工作行为正在发生变化，由于新的可能性出现，也会产生全新的职业。她建议公司成立内部「能力中心」，培训员工使用人工智能并将想法整合到项目中。

此外，她还强调，微软不会使用客户数据来训练模型（但值得注意的是，对于他们研究合作伙伴 OpenAI 而言，这可能并不总是如此）。

实际上，有两个 AI 技术专家 Clemens Sieber 和 Holger Kenn 提供了解释了一些关于 AI 实际使用的一些信息。他们讲解了涉及具体用例所需技术。

Kenn 解释说，不仅可以将文本翻译成图像，还可以翻译成音乐和视频。此外，他还讨论嵌入——用于内部表征模型中的文本。这使得负责任的人工智能被内置到微软产品中，并且可以通过云将数百万个查询映射到 API 中。

Siebler 用实例说明今天已经成为可能的事情，如直接把电话呼叫转换成文本。他指出，他们的一个原型是在两小时内创建成功，该开发人员只花两周时间完成该项目。他介绍三种最常见应用，即回答只有员工作业才能访问到的公司信息、半自动化口语处理以及辅助文档处理。

当被问及操作可靠性和事实保真度时,Siebler 表明 AI 不总能准确回答，因此需要验证。大部分用户只是基于自己的数据集使用这些工具，用来进行阅读理解或库存管理，在这些情况下，该模型表现良好。但生成性的文本仍然存在挑战。在反馈循环过程中包括赞同与否认，以实现迭代更新。

看起来，在竞争激烈的人工智能大模型领域，一方领先者的步伐也越走越快。就在过去一周左右里，加速了一系列展示多模态论文 Kosmos-1 和 Visual ChatGPT 的发布。这显示出这家公司对于支持多模态而努力，以实现感知与 LLM 保持一致，从而让单个 AI 模型既能识别文字图片，又能“说话”。

接下来，我们期待着看到更多关于未来人工智能应用的情报，看看哪位 CEO 萨蒂亚・纳德拉是否会在即将召开的地点上揭晓更多秘密。而有趣的是，与百度计划推出的类似聊天机器人的“文心”选择同一天作为全球发布日期——这一天距现在还有一个星期时间。这听起来像是科技巨头们都准备好了，要迎接即将到来的新时代！

参考内容：

https://www.heise.de/news/GTP-iscoming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-

7540972.html

标签： 2021年度国内十大科技新闻、科技创新素材、捷顺科技、永久免费黑科技软件、国家科技部

上一篇：满天星花语寓意深邃夜空中的繁星如同美丽的女子各具独特之处寓意着丰富多彩的人生

下一篇：学舔狗的语气说句话汇总我再也不做舔狗了真香

百度急袭GPT-4微软引领多模态大模型新篇章

dds-11a电导率仪精确测量高性能的电导率检测设备

三瓣六瓣填料的安装要求亲测攻略

刹车分泵汽车制动系统的重要部件

旋涡之心萃取器的秘密舞蹈

现代建筑的钢铁之翼涂塑复合钢管的魅力与实用性