当前位置: 首页 - 行业资讯 - Facebook的模型超越GPT-3归一化如何提高预训练并缓解梯度不匹配成为综合国力新标志

Facebook的模型超越GPT-3归一化如何提高预训练并缓解梯度不匹配成为综合国力新标志

2024-12-25 行业资讯 0

机器之心报道

编辑:杜伟、陈萍

Facebook AI 研究团队提出了 NormFormer 模型,该模型能更快达到目标预训练的困惑度,更好地实现预训练困惑度和下游任务性能。NormFormer 通过在 Transformer 架构中引入额外的 LayerNorm 操作来缓解梯度不匹配问题,提高了模型稳定性并提升了性能。

研究表明,在原始的 Transformer 架构中,LayerNorm 通常位于 Residual 后面,这种 Post-LN 的架构已经在自然语言处理任务中取得显著成果。但是,近期发现 Post-LN transformer 中较后层的网络梯度幅度通常比较早层大。这导致 Pre-LN transformer 在使用更大的学习率和极小学习率进行预热时表现更好,并且通常产生更好的性能。

尽管 Pre-LN 提高了稳定性,但它也存在缺点,即较早层的梯度往往大于较后层。这一问题可以通过 NormFormer 缓解,它增加了三次 LayerNorm 操作以减少早期层的梯度并增加后期层的梯度,使不同层之间梯度大小更加接近。此外,这些额外操作带来的计算成本微不足道(仅为参数量增量中的0.4%)。

实验结果显示,NormFormer 能够在相同计算预算下达到的与 GPT3-Large (1.3B) 相同水平困惑程度得分,比基线快60%;对于掩码语言模型,其微调后的 GLUE 性能平均提高了1.9%。Sam Shleifer 表示很高兴发布 NormFormer,他表示这个新架构在每个扩展上都优于 GPT-3。而 Ethan Caballero 认为“更多归一化就是所有你需要”,他认为 NormFormer 已经达到了SOTA性能,并且速度提升22%,下游任务零样本性能也有所增强。

论文地址:https://arxiv.org/pdf/2110.09456.pdf

简而言之,Facebook AI 研究者提出了一种名为 NormFormer 的新的语言建模架构,它能够快速达到目标预训练难以达到的困惑水平,并且在各种自然语言处理任务中表现出色。在多头自注意力机制内部应用 head-wise 缩放,以及添加两个额外 LayerNorm 操作,可以有效地解决不同深浅网络间梯度不匹配的问题,从而提升整个模型的整体效能和可靠性。

标签: 科技行业资讯