全球著名科技网站难道不是归一化技术让预训练模型超越GPT-3缓解了梯度不匹配的困扰吗

2024-12-25 行业资讯 0

机器之心报道

编辑：杜伟、陈萍

来自 Facebook AI 的研究者提出了 NormFormer，该模型能够更快地达到目标预训练的困惑度，更好地实现预训练困惑度和下游任务性能。

在原始的 Transformer 架构中，LayerNorm 通常在 Residual 之后，称之为 Post-LN（Post-Layer Normalization）Transformer，该模型已经在机器翻译、文本分类等诸多自然语言的任务中表现突出。

最近的研究表明，在 Post-LN transformer 中，与较早层的网络相比，在较后层的网络中具有更大的梯度幅度。

实践表明，Pre-LN Transformer 可以使用更大的学习率、极小的学习率进行预热（即 warm-up），并且与 Post-LN Transformer 相比通常会产生更好的性能，所以最近大型预训练语言模型倾向于使用 Pre-LN transformer。

来自 Facebook AI 的研究者表明，虽然 Pre-LN 比 Post-LN 提高了稳定性，但也具有缺点：较早层的梯度往往大于较后层的梯度。这些问题可以通过该研究提出的 NormFormer 来缓解，它通过向每一层添加 3 个归一化操作来缓解梯度幅度不匹配问题（见图 1，中间）：自注意力之后添加层归一，自注意力输出的 head-wise 扩展，在第一个全连接层之后添加层归一。这些操作减少了早期层的梯度，增加了后期层的梯度，使不同层의梯度大小更接近。

此外，这些额外操作产生的小量计算成本可以忽略不计（0.4% 的参数增加），但这样做可以提高模型预训练困惑度和在下游任务中的表现。

论文地址：https://arxiv.org/pdf/2110.09456.pdf

正如你所疑问，是不是因为 NormFormer 这种创新性的技术，让我们终于能看到Facebook AI发布的一款超越GPT-3的大型语言模型？这种技术确实有效，它不仅加速了到达同样水平困惑程度，而且提升了从头开始或微调后的下游任务性能。这是否意味着未来，我们将迎来一个新时代，其中AI系统更加强大而又更加可靠？

为了回答你的疑问，我们深入探讨了一些关键细节：

首先，这项工作提出了一种名为NormFormer架构，它利用三次额外的人工智能算法——每个单独应用一次——使得各个部分都能相互协作，从而最终解决前面提到的“渐变失衡”问题。这个方法非常经济，因为它只需要一点额外参数，并且几乎不会影响处理速度。

其次，对于因果语言模型(CLM)和掩码语言模型(MLM)，这项工作展示了如何用相同数量计算资源获得最佳结果，而不是简单地增加更多资源。这是因为NormFormer能够快速调整其内部参数，以适应不同的数据集和优化目标。

最后，这项工作还揭示了一种新的学习策略，即基于损失爆炸测试，以评估任何给定的架构设计是否足够稳定。此方法证明NormFormer比传统方案要坚韧得多，不容易崩溃，即使是在极端条件下运行时也是如此。

总结来说，由Facebook AI团队开发出来的是一种革命性的工具，它既能够快速达到与GPT-3相当级别，也能保持长期稳定性。在未来的几个月里，我们将继续观察这一领域，看看其他公司或组织是否会推出类似的创新产品。

标签：科技行业资讯

上一篇：家族继承权的激烈较量九子夺嫡的传奇故事

下一篇：智能家居的未来技术如何塑造我们的居住生活空间

全球著名科技网站难道不是归一化技术让预训练模型超越GPT-3缓解了梯度不匹配的困扰吗

仪器仪表的区别 - 精密测量与控制系统揭秘仪器仪表的本质差异

超级安全极致便携公牛智能USB插座让你的数码宝贝国语版第一部充电体验如同在数字宝岛上探险一样神奇

工业以太网技术革新智能化工控设备的网络化未来

我来告诉你测量的秘密从古人计数到现代科技

香槟玫瑰解析其在现代园艺中的地位与文化象征意义