2024-12-03 手机 0
科学技术部:GPT“高仿”系列开源,最大可达GPT-3大小能自主训练
萧箫 / 凹非寺量子位 报道 公众号 QbitAI
虽然GPT-3未开源,但已有人模仿其模型。慕尼黑工业大学的Connor Leahy以200小时、6000元复现了GPT-2,因此理论上可训练类似规模的模型。硬件问题仍待解决。如果实现,可先申请谷歌免费资源,或在TPU/GPU上训练。
使用TPU需注册谷歌云平台,创建存储空间,然后虚拟机加载模型至TPU进行训练。GPU足够时,可以直接在本地进行训练,无需配置Google云服务。此外,Google Colab提供TPU-V8S处理器,可用于无额外成本下的GPT-3XL(1.5B参数)版本训练。
指定硬件名称及数量后,便可开始模型训练。而对于网友对此项目持保留态度,他们认为尽管复现有趣,却尚未具备杀手级应用,使得存在意义不明显。不过,有人认为,即便是"几百个只会搜索引擎干活的团队"也需要快速回答问题,从大量零碎信息中高效选出最优解,是项目价值之一。
目前,所有GPT-Neo项目和代码均已开源,对感兴趣的小伙伴开放尝试。
项目地址:https://github.com/EleutherAI/gpt-neo
参考链接:https://www.eleuther.ai/gpt-neo https://news.ycombinator.com/item?id=25819803