2025-03-14 手机 0
过去六个月里,我们意识到训练成本是无关紧要的。当然,这听起来可能有些疯狂——需要花费数千万甚至数亿美元来训练一个模型。但对于这些公司来说,这种支出微不足道。这实际上是一个固定资本支出项目,通过扩大规模可以持续获得更好的结果。唯一的限制因素是将计算资源扩展到人类能够获得反馈并修改架构的时间尺度上。
包括Google、Meta和OpenAI/Microsoft在内的多家公司将在价值超过1000亿美元的超级计算机上训练模型。Meta每年在“元宇宙”上烧掉160亿美元,Google每年浪费100亿美元用于各种无法实现的项目。亚马逊已经亏损了超过500亿美元于Alexa。而加密货币则浪费了1000亿美元于没有价值的事情。
这些公司和整个社会可以并且将会花费超过1000亿美元来创建能够训练单个大规模模型的大型计算机。此后,这些大规模模型可以以各种方式产品化。这一努力将在多个国家和公司中复制。这是一场新的太空竞赛。而与以前不同的是,现在的人工智能具有明显的价值,将从人类助理和自主代理中获得实际价值。
然而真正的问题之一是推理。在目标是将训练计算与推理计算分离。一切都是为了使这项技术更加有效率而进行的一系列权衡。在稀疏模型架构中,只有必要时才激活参数,以减少推理过程中的开销。
但最大的挑战还是把这些模式扩展到用户和代理上的成本过高。推理比训练还要昂贵得多。这就是OpenAI在模型架构及基础设施上的创新目标。
对于密集型模式,大型模式推理是一个多变量问题。在这里,我们详细讨论了边缘计算方面的问题,但对于数据中心来说,问题陈述非常相似。不幸的是,即使设备拥有足够带宽,它们也无法提供足够内存带宽来实现某些吞吐量水平。大型语言模型使用大量资源,而边缘设备上的硬件利用率极低。
并行策略至关重要,他们采用8路张量并行,因为这是NVLink限制所致。此外,还采用15路流水线并行,从理论上讲,在考虑数据通信及计算时间时,这太过优化,但如果受限于内存容量,那么这样做就合乎情理了。
尽管如此,我们不明白他们如何避免批次产生巨大的延迟很可能只是吸收这个成本为止。如果他们没有使用完整模型FSDP(全速前向传递),原因可能是因为更高通信开销即便它们拥有高速网络连接,不同节点之间并不总是如此连接。
MoE(混合专家)模式引入了一整套新的困难,每个标记生成都会路由到不同的专家集合。这引入了一种新的困境,在吞吐量、延迟及利用率方面尤其是在较大的批次大小下。
GPT-4拥有16个专家,每个前向传递会路由到其中2个专家的参数读取只可能达到1/8或1/4等小批次大小,更糟糕的是,有时候还有零值,因此标记间延迟及其变化都变得非常复杂。
因此,对于视觉编码器与文本编码器分开但存在交叉注意力的结构,如Flamingo,他们决定先从文本预先学习再降低风险地微调视觉能力。
GPT-5据说会直接开始培训视觉功能,并且能自动生成图像处理音频内容,其目的是让自主代理能阅读网页转录图像视频内容,其中包括联合数据渲染LaTeX/文本,以及YouTube视频采样帧Whisper转录。
然而,对LLM过度优化内容IO成本,与文本不同,在图像压缩工作正在进行之际,对硬件供应商而言特别重要。
下一篇:化工新技术重塑传统医学的未来