2024-12-03 手机 0
。尽管GPT-3尚未开源,但已有研究者成功复现了部分模型,如慕尼黑工业大学的Connor Leahy,他花费200个小时、6000人民币复现了GPT-2。理论上,训练一模一样的GPT-3大小模型是可行的,但目前作者们仍在寻找解决硬件问题的明确方案。
如果要进行这样的训练,他们计划先尝试从谷歌那里获得免费资源,如果这不奏效,则会探索其他可能的解决方案。在TPU和GPU上进行训练方法存在差异。如果使用TPU,则需要注册Google Cloud平台、创建存储空间,并设置虚拟机,将模型放到TPU上进行训练。而如果你的GPU性能足够,可以直接在本地设备上进行培训,不需配置Google Cloud环境。此外,还可以利用谷歌Colab提供的免费TPU-V8S处理器来完成这一任务,对于1.5B参数版本来说,这种配置完全足够。
对于如何指定硬件名称和数量,以及开始模型训练过程,都有详细说明。不过,有些人对此项目持保留态度,他们认为虽然复现这些项目很有趣,但是目前还没有一个“杀手级”的应用来赋予其更大的意义。
另一方面,也有人认为,即使仅仅是一群只会使用搜索引擎的人组成团队,他们也需要快速提供某些问题答案。这就体现了GPT-X项目的一个价值,即在大量零碎信息中高效选取最优解。由于几百个只会用搜索引擎工作的人无法像GPT-3那样快速得出最佳答案,因此这个项目仍然具有重要意义。
现在,所有关于GPT-Neo项目及其代码已经开放给公众。想要尝试或对此感兴趣的小伙伴,现在可以行动起来~
访问链接:https://github.com/EleutherAI/gpt-neo
参考链接:https://www.eleuther.ai/gpt-neo, https://news.ycombinator.com/item?id=25819803