科技发展论文Facebook的模型如何超越GPT-3

2024-12-25 行业资讯 0

机器之心专稿

编辑：杜伟、陈萍

来自 Facebook AI 的研究团队提出了 NormFormer，这是一种新型的预训练语言模型，它能够更快地达到目标困惑度，并在多个下游任务中表现出色。NormFormer 在 Transformer 架构中引入了额外的 LayerNorm 操作，旨在缓解梯度不匹配的问题。

Transformer 的原始架构使用 Post-Layer Normalization（Post-LN），这种方法已经在自然语言处理任务中取得了显著成果。然而，最近的研究表明，在较后层网络相比于较早层网络，其梯度幅度更大。因此，大型预训练语言模型倾向于使用 Pre-Layer Normalization（Pre-LN）。虽然 Pre-LN 提高了稳定性，但也存在缺点，即早期层的梯度往往大于后期层。

通过添加三处归一化操作，NormFormer 可以减少早期层的梯度并增加后期层的梯度，从而使不同层之间的梯度大小更加接近。这三个操作分别是在自注意力之后、自注意力输出 head-wise 扩展之后以及第一个全连接后的每一层之前进行。在图 1 中可以看到这些额外操作如何影响模型结构。

尽管这些额外操作增加了参数量，但只占总参数量的大约 0.4%。实验结果显示，NormFormer 能够提高同等困惑下的性能，比如在因果语言模型上，可以提高 24%，或者在相同计算预算下获得更好的收敛效果。此外，对掩码语言模型来说，NormFormer 还能提升微调后的 GLUE 性能。

论文作者 Sam Shleifer 表示：“很高兴发布 NormFormer，它在所有扩展规模上都超过了 GPT-3。” Ethan Caballero 也表示：“更多归一化是你所需要的一切”，他认为 NormFormer 在 GPT-3 架构中的应用达到了 SOTA 性能，同时速度加快22%，并且对下游任务有着强大的零样本性能。

实验结果显示，无论是因果语言模型还是掩码语言模型，只要采用 Norm Former 结构，都能够实现更快的训练速度和更好的验证困惑率。在给定的计算资源下，Norm Former 都能够超越 GPT-3 的表现。这项工作证明了一种新的设计思路，即通过适当地调整每个子模块，可以有效地改善整个神经网络体系结构，以此来促进深入学习和优化性能。

标签：科技行业资讯

上一篇：语音启航掌握手机智能助手的秘诀

下一篇：谷歌大军出击PaLM 2模型震撼登场GPT-4霸主地位岌岌可危视频黑科技app迎来AI革命潮流

科技发展论文Facebook的模型如何超越GPT-3

西安财经大学研究生院学术殿堂的绽放

智能化应用革命人工智能大数据与物联网的有机融合

芯片行业的佼佼者揭秘哪些公司真正称得上是芯片最好

华为手机新品超级拍照快充大师AI智能体验

网易财经在提供个股分析方面有哪些优势