2024-12-03 手机 0
萧箫 发自 凹非寺量子位 报道 公众号 QbitAI
尽管GPT-3尚未开源,但已有人模仿其模型。慕尼黑工业大学的Connor Leahy利用200个小时和6000人民币复现了GPT-2。这表明理论上可以训练具有GPT-3规模的模型。不过,目前作者们仍在寻找解决硬件问题的明确方案。如果未来成功开发出类似规模的模型,他们计划首先向谷歌申请免费资源,若无效则再考虑其他方案。
要在TPU或GPU上训练GPT-Neo,其方法有所不同。在使用TPU时,需要注册谷歌云平台、创建存储空间,并设置虚拟机,将模型放到TPU进行训练。此外,也可以直接使用强大的GPU来进行训练,从而避免配置谷歌云服务。另一种选择是利用谷歌Colab,它提供免费的TPU-V8S处理器,可用于培训拥有1.5亿参数版本(即3XL)的GPT项目。
只需指定硬件名称和数量,便可开始进行模型训练。然而,有些人对此项目持怀疑态度,他们认为尽管复现这些项目很有趣,但目前它们还没有一个真正实用的应用,使得存在感更加显著。而对于一些支持者而言,即便是由数百名只能依赖搜索引擎的人组成的团队,这些团队也需要快速地回答问题如何在大量碎片化信息中高效选取最优解,这本身就是复现项目价值的一部分。
值得注意的是,无论是否仅仅是几百名“会用Google搜索”的人,如果能够快速得到最佳答案,那么这本身就是该项目的一个重要价值点。至于如何从零碎信息中提取宝贵知识,这正是这一领域正在探索的问题之一。
现在,所有关于GPT-Neo的代码已经开放给公众访问。对于想要尝试这个技术或者对其充满好奇的小伙伴们来说,现在是一个行动起来的时候了~
参考链接:
https://github.com/EleutherAI/gpt-neo
https://www.eleuther.ai/gpt-neo
https://news.ycombinator.com/item?id=25819803
上一篇:肉欲列车穿越高H的诱惑与沉沦