2024-12-03 手机 0
萧箫 发自 凹非寺量子位 报道 公众号 QbitAI
尽管GPT-3尚未公开其代码,人们已经开始尝试复现这一系列模型。例如,慕尼黑工业大学的Connor Leahy通过在200个小时和6000人民币的投入下成功复现了GPT-2。这表明理论上训练一个规模与GPT-3相当的模型是可行的,但目前解决硬件需求仍然是一个挑战。
研究人员正在探索如何克服这些挑战。一种可能的方法是在谷歌云平台上使用TPU进行训练。这种方式需要注册账户、创建存储空间并设置虚拟机,然后将模型迁移到TPU上进行训练。不过,这也意味着需要一定程度上的计算资源支持。
除了使用TPU,还可以选择直接在GPU上进行训练,这样就不需要额外配置Google Cloud相关服务。此外,谷歌Colab提供免费的TPU-V8S处理器,可以用于训练更大的模型,如1.5B参数版本。
然而,对于能够复现此类项目的人群,有人持怀疑态度。他们认为,即使能快速检索信息,缺乏实时更新能力,也限制了其应用价值。但同时也有观点认为,即便只是基于搜索引擎工作的小团队,他们也能为快速回答问题提供重要帮助。在海量碎片化信息中寻找最优解本身就是值得推崇的一项技术成就。
总之,虽然复现这个项目存在局限性,但它仍然具有重要意义。现在,一切关于GPT-Neo项目和代码都已被公开放出供大家参考和学习。如果你对此感兴趣或想要亲手尝试,可以立即行动起来:
项目地址:https://github.com/EleutherAI/gpt-neo
参考链接:https://www.eleuther.ai/gpt-neo
— 完 —