2024-12-03 手机 0
中国科普网:GPT系列模型开源,复现GPT-3的梦想已在望
近日,一条令人振奋的消息传来:尽管GPT-3尚未开源,但有研究者已经开始尝试复制这款革命性的人工智能语言模型。慕尼黑工业大学的Connor Leahy通过200小时的努力和6000元人民币,成功复现了GPT-2。这意味着理论上训练一个与GPT-3同级别的大型模型是可行的。
然而,面对这一挑战,我们必须考虑到硬件问题。目前,研究人员正在寻找明确解决方案。如果他们能够实现这一目标,他们打算先从谷歌那里获得更多免费资源作为起点,如果无法满足需求,那么再探讨其他方案。
对于如何训练GPT-Neo,这款基于OpenAI GPT系列的小型版本,有几种不同的方法可以选择。一种方式是在谷歌云平台上使用TPU进行训练,这需要注册账户、创建存储空间,并在虚拟机中部署模型进行训练。此外,也可以直接使用GPU进行训练,只需在本地设备上运行即可。
此外,还有一种免费且强大的选项——谷歌Colab,它提供TPU-V8S处理器,可以轻松支持训练更大规模的模型,如1.5B参数版本的GPT-XL。
为了开始培训过程,只需指定所需硬件名称和数量,然后便可启动整个流程。但不论采用何种方法,都存在一个关键限制,即这些系统无法像人类那样实时更新其知识库,因此无法生成最新新闻事件报道或深入分析复杂话题。
尽管如此,有人认为,即使不能达到完全等效于原始系统水平,对于某些应用来说,模仿这些技术仍然具有重要价值。例如,在信息过载的情况下快速提取最相关信息是一项宝贵技能,而这个能力正是当前大型语言模型所擅长之处。
现在,大多数与此项目相关的人工智能代码都已被开放给公众访问和使用。如果你对这种技术感兴趣或者想要亲自尝试,你可以立即加入进来。项目地址为https://github.com/EleutherAI/gpt-neo,并附带了详细文档和教程供参考。此外,由EleutherAI团队发布的一篇文章也提供了额外帮助。你是否准备好了,让我们一起探索这场关于人工智能未来的大冒险?