2024-12-03 手机 0
中国科技界迎来新动作:GPT“高仿”系列开源,实现自主训练至GPT-3级别性能
萧箫报道,根据最新消息,尽管GPT-3尚未公开其源代码,但已有研究者成功复现了GPT系列模型。慕尼黑工业大学的Connor Leahy通过200小时的计算和6000人民币的成本复制了GPT-2。这表明理论上训练一个与GPT-3规模相当的模型是可行的。
然而,这项任务面临着硬件限制。目前,研究人员正在寻找有效解决这一问题的手段。如果他们能够克服这一难题并训练出类似于GPT-3的大型语言模型,他们计划首先从谷歌那里获取免费资源作为起点。
对于如何在TPU或GPU上进行训练,有几个选项可供选择。如果使用TPU,可以注册Google云平台、创建存储空间,并设置虚拟机,然后将模型部署到TPU进行训练。而如果拥有足够强大的GPU,也可以直接在本地进行培训,不需要配置Google云服务。此外,还可以利用谷歌Colab提供的免费TPU-V8S处理器来完成这项工作,它足以支持对1.5亿参数版本(即GPT 3XL)的培训。
要开始这个过程,只需指定硬件名称和数量,就能启动模型训练。不过,一些观察家认为,对于模仿像自动化团队一样仅依赖搜索引擎的人工智能项目,这种尝试可能并不充满希望,因为它们无法处理最新新闻事件等实时内容更新的问题。
尽管如此,也有一些人认为,即便没有杀手级应用,这样的项目仍然具有价值。它提供了一种快速提取大量碎片信息中的最佳解答方案的方法,而这种能力对某些应用来说是非常宝贵的,无论这些应用是什么形式。
现在,所有关于GPT-Neo项目和代码都已经被开放给公众访问。任何想了解或参与此类项目的小伙伴都可以开始行动起来。
访问地址为:https://github.com/EleutherAI/gpt-neo
参考链接:https://www.eleuther.ai/gpt-neo以及https://news.ycombinator.com/item?id=25819803