2024-12-03 手机 0
数据驱动:论文探究,揭开知识体系之谜
在科技的海洋中,有一条被广泛追逐的船只——GPT系列模型。尽管GPT-3尚未开放源代码,但有勇者尝试模仿这艘巨轮,复现其模型。慕尼黑工业大学的Connor Leahy便是其中之一,他成功以200小时和6000人民币复制了GPT-2。这意味着理论上,训练一个与GPT-3规模相当的大型模型是可行的。但硬件挑战仍然存在,这些挑战正被研究人员深思熟虑。如果未来真的能制造出类似于GPT-3那么庞大的模型,他们计划首先从谷歌那里索取免费资源,如果那不奏效,他们会再考虑其他方案。
对于如何使用TPU和GPU来训练GPT-Neo而言,方法略有不同。如果选择使用TPU进行训练,你需要注册谷歌云平台、创建存储空间,并配置虚拟机,将模型部署到TPU上进行训练。而如果你的GPU性能足够强大,你可以直接在本地环境下进行训练,无需搭建完整的云服务。此外,还有一种通过谷歌Colab实现免费TPU-V8S处理器来完成任务,这足以支持对1.5亿参数版本(即GPT 3XL)的高效训练。然后,只需指定硬件名称及数量,便可开始培训过程。
然而,对于那些仅依赖自动化团队,即“只会用谷歌搜索”的项目复现者,其实力受到了一些质疑。这些人虽然能够快速提供信息,但无法撰写最新新闻事件报道,因为他们缺乏持续更新数据源所必需的一切能力。不过,也有人认为,即使如此,这样的项目仍具有重要意义。在大量碎片化信息中找到最佳答案本身就是该系列项目价值的一个方面。不论是几百个仅能执行搜索任务的人群还是像真正的人工智能那样工作,它们都需要迅速准确地提供解决方案。
目前,所有相关项目和代码已开放给公众,可以自由访问并参与改进。对于对此领域感兴趣的小伙伴来说,现在就是行动起来的时候!
GitHub 仓库地址:https://github.com/EleutherAI/gpt-neo
参考链接:https://www.eleuther.ai/gpt-neo
— 完 —