2024-12-03 手机 0
尽管GPT-3尚未开源,但已经有人模仿了GPT系列模型。如慕尼黑工业大学的Connor Leahy,他用200个小时、6000RMB成功复现了GPT-2。这意味着理论上可以训练与GPT-3相匹配大小的模型。然而,目前作者们仍在探索解决硬件问题的明确方案。如果未来实现了GPT-3大小模型,他们计划先从谷歌获取免费资源,如果不行再考虑其他方案。
为了训练GPT-Neo,其方式在TPU和GPU上有所不同。在TPU上进行训练需要注册谷歌云平台、创建存储空间以及设置虚拟机,并将模型放置于TPU上进行训练。若GPU硬件条件良好,也可直接在本地设备上进行训练,无需使用谷歌云。此外,可以利用谷歌Colab来进行项目训练,它提供免费的TPU-V8S处理器,即便是1.5B参数版本(即GPT 3XL)的模型也足以处理。
只需指定硬件名称及数量,便可开始培训过程。而对于复现这一项目,有些人持保留态度认为,这类项目就像由数百人组成的自动化团队,只会依赖搜索引擎工作,而且无法撰写最新新闻事件报道,因为其数据无法持续更新。
然而,也有一些观点认为复现这样的项目仍然具有一定的意义,即使仅为“几百个只会用搜索引擎干活的人”,他们也需要迅速提供某个问题答案。在大量零碎信息中高效选出最优解,本身就是这些项目价值之一。毕竟,如果只有几个“会用谷歌搜索”的人群,是无法快速得出最佳答案的,与真正的大型语言模型如GPT-3迥异。
现在,所有关于GPT-Neo的一切代码和项目已被公开发布给公众,对感兴趣的小伙伴们开放参与或尝试。你可以通过以下链接访问相关内容:
https://github.com/EleutherAI/gpt-neo
https://www.eleuther.ai/gpt-neo
https://news.ycombinator.com/item?id=25819803
关注我们,第一时间了解前沿科技发展!