2024-12-25 行业资讯 0
机器之心专稿
编辑:杜伟、陈萍
来自 Facebook AI 的研究团队提出了 NormFormer,这是一种新型的预训练语言模型,它能够更快地达到目标困惑度,并在多个下游任务中表现出色。NormFormer 在 Transformer 架构中引入了额外的 LayerNorm 操作,旨在缓解梯度不匹配的问题。
Transformer 的原始架构使用 Post-Layer Normalization(Post-LN),这种方法已经在自然语言处理任务中取得了显著成果。然而,最近的研究表明,在较后层网络相比于较早层网络,其梯度幅度更大。因此,大型预训练语言模型倾向于使用 Pre-Layer Normalization(Pre-LN)。虽然 Pre-LN 提高了稳定性,但也存在缺点,即早期层的梯度往往大于后期层。
通过添加三处归一化操作,NormFormer 可以减少早期层的梯度并增加后期层的梯度,从而使不同层之间的梯度大小更加接近。这三个操作分别是在自注意力之后、自注意力输出 head-wise 扩展之后以及第一个全连接后的每一层之前进行。在图 1 中可以看到这些额外操作如何影响模型结构。
尽管这些额外操作增加了参数量,但只占总参数量的大约 0.4%。实验结果显示,NormFormer 能够提高同等困惑下的性能,比如在因果语言模型上,可以提高 24%,或者在相同计算预算下获得更好的收敛效果。此外,对掩码语言模型来说,NormFormer 还能提升微调后的 GLUE 性能。
论文作者 Sam Shleifer 表示:“很高兴发布 NormFormer,它在所有扩展规模上都超过了 GPT-3。” Ethan Caballero 也表示:“更多归一化是你所需要的一切”,他认为 NormFormer 在 GPT-3 架构中的应用达到了 SOTA 性能,同时速度加快22%,并且对下游任务有着强大的零样本性能。
实验结果显示,无论是因果语言模型还是掩码语言模型,只要采用 Norm Former 结构,都能够实现更快的训练速度和更好的验证困惑率。在给定的计算资源下,Norm Former 都能够超越 GPT-3 的表现。这项工作证明了一种新的设计思路,即通过适当地调整每个子模块,可以有效地改善整个神经网络体系结构,以此来促进深入学习和优化性能。