2025-03-14 科技 0
科学发展的智慧赋能GPT-4,仿佛拥有了预知未来之眼。OpenAI在其架构设计中进行的工程权衡,就像一位精明策略家,在棋盘上行走。过去6个月里,我们意识到训练成本如同微不足道的小钱。在这些公司看来,这种巨额支出不过是固定资本支出的延伸,通过扩大规模可持续获得更好的结果。唯一限制因素是将计算资源扩展到人类能够获得反馈并修改架构的时间尺度。
未来几年内,包括Google、Meta和OpenAI/Microsoft等多家公司,将在价值超过1000亿美元的超级计算机上训练模型。这场新的太空竞赛不同于以往浪费,不仅具有显著价值,而且短期内即将从人工智能助理和自主代理中带来实际效益。
真正的挑战在于将这些模型扩展到用户和代理上的成本过高。推理比训练成本高出许多倍。这就是OpenAI在模型架构和基础设施方面创新目标所在。而对于密集模型,大型语言模型的推理是一个多变量问题。
我们探讨了边缘计算中的问题,但对于数据中心来说,问题陈述非常相似。大型语言模型无法实现某些吞吐量水平,即使有足够带宽,也因为边缘设备硬件资源利用率低而受到限制。
为了解决这一难题,采用8路张量并行以及15路流水线并行至关重要。此外,由于每个GPU参数占用约30GB,因此可能使用ZeRo阶段1或块级FSDP或混合共享数据并行,以减少通信开销。
然而,对于GPT-4这样的Mixture of Experts(MoE)模式,它引入了一整套新困难,每次标记生成都需要选择不同的专家集合,从而引入了吞吐量、延迟及利用率之间新的权衡困境。
为了解决这个问题,OpenAI选择采用较少专家的原因之一就是避免推理时内存带宽成为瓶颈。如果他们选择更多专家,那么内存带宽就更加成为推理瓶颈。在一个由128个GPU组成的大型集群上运行推理,他们采用8路张量并行和16路管道并行,使得每个节点只有约130B参数,可以运行在40GB A100 GPU上,只要KV缓存不会膨胀得太大。
尽管视觉多模态能力不如文本编码器受欢迎,但它仍然是一项关键技术,因为它使自主代理能够阅读网页,并转录图像和视频内容。然而,与文本加载相比,视觉数据加载IO成本高达150倍,每个标记约600字节,而非文本中的4字节,这对正在针对LLM硬件优化的人们来说是一个重要考虑点。