Facebook的模型超越GPT-3归一化如何提高预训练并缓解梯度不匹配成为综合国力新标志

2024-12-25 行业资讯 0

机器之心报道

编辑：杜伟、陈萍

Facebook AI 研究团队提出了 NormFormer 模型，该模型能更快达到目标预训练的困惑度，更好地实现预训练困惑度和下游任务性能。NormFormer 通过在 Transformer 架构中引入额外的 LayerNorm 操作来缓解梯度不匹配问题，提高了模型稳定性并提升了性能。

研究表明，在原始的 Transformer 架构中，LayerNorm 通常位于 Residual 后面，这种 Post-LN 的架构已经在自然语言处理任务中取得显著成果。但是，近期发现 Post-LN transformer 中较后层的网络梯度幅度通常比较早层大。这导致 Pre-LN transformer 在使用更大的学习率和极小学习率进行预热时表现更好，并且通常产生更好的性能。

尽管 Pre-LN 提高了稳定性，但它也存在缺点，即较早层的梯度往往大于较后层。这一问题可以通过 NormFormer 缓解，它增加了三次 LayerNorm 操作以减少早期层的梯度并增加后期层的梯度，使不同层之间梯度大小更加接近。此外，这些额外操作带来的计算成本微不足道（仅为参数量增量中的0.4%）。

实验结果显示，NormFormer 能够在相同计算预算下达到的与 GPT3-Large (1.3B) 相同水平困惑程度得分，比基线快60%；对于掩码语言模型，其微调后的 GLUE 性能平均提高了1.9%。Sam Shleifer 表示很高兴发布 NormFormer，他表示这个新架构在每个扩展上都优于 GPT-3。而 Ethan Caballero 认为“更多归一化就是所有你需要”，他认为 NormFormer 已经达到了SOTA性能，并且速度提升22%，下游任务零样本性能也有所增强。

论文地址：https://arxiv.org/pdf/2110.09456.pdf

简而言之，Facebook AI 研究者提出了一种名为 NormFormer 的新的语言建模架构，它能够快速达到目标预训练难以达到的困惑水平，并且在各种自然语言处理任务中表现出色。在多头自注意力机制内部应用 head-wise 缩放，以及添加两个额外 LayerNorm 操作，可以有效地解决不同深浅网络间梯度不匹配的问题，从而提升整个模型的整体效能和可靠性。

标签：科技行业资讯

上一篇：3一6年级科技小制作手工能否创造出更酷炫的发明

下一篇：万能遥控器新时代智能配对空调家居生活更悠然

Facebook的模型超越GPT-3归一化如何提高预训练并缓解梯度不匹配成为综合国力新标志

家居美学温馨舒适的40平米客厅梦想空间设计

新华脉动真空压力蒸汽灭菌器液晶触摸屏智能控制型

新中式风格奢华卧室装修效果图古典雅致与现代感完美融合

客厅电视墙设计图集创意家居布局灵感

不锈钢护栏安全与美观的双重奏鸣