2024-12-03 手机 0
航空航天数据驱动革命:慕尼黑工业大学学者复现GPT-2,探索训练GPT-3大小模型的可能性
在量子位科技报道中,我们得知尽管GPT-3尚未开源,但已经有研究人员开始尝试复刻这一系列模型。其中,慕尼黑工业大学的Connor Leahy利用200个小时和6000人民币成功复现了GPT-2。这一成果表明理论上是可行的,以软件形式训练一个与GPT-3同等规模的大型语言模型。
然而,硬件方面的问题仍然是研究人员正在努力寻找明确解决方案。如果未来真的能够开发出类似于GPT-3大小的模型,他们计划首先向谷歌请求更多免费资源;如果这不可能,他们将会继续探索其他选项。
在TPU或GPU上训练这些大型语言模型时,有几种不同的策略可以选择。使用谷歌云平台并配置虚拟机,将模型放置在TPU上进行训练是一个选项。而且,如果你的GPU硬件条件满足,也可以直接在本地设备上进行训练,无需创建云服务账户。
此外,谷歌Colab提供了免费的TPU-V8S处理器,这对于运行更大的参数版本如1.5B参数版本来说完全足够。此前,一些用户已经证明通过这种方式可以轻松完成相似的任务。
为了开始培训,你需要指定所需硬件名称和数量,然后就可以启动整个过程了。不过,对于一些人而言,即便存在这样的技术手段和工具,他们仍对其应用抱有疑虑。在他们看来,即使复现了如此强大的AI系统,它们也无法真正实现自动化,因为它们依赖于不断更新的信息,而目前没有办法让这些系统实时获取最新新闻事件报告。
当然,并非所有人都持怀疑态度。一些支持者的观点是,即使这些系统仅能模仿人类搜索引擎用户,它们依然具有一定的价值。它们能够快速提取大量零碎信息中的最优解,从而在信息过载时代提供帮助。这正是复现这一项目的一大意义所在——即便它不能像真实的人类那样迅速准确地给出答案,但它为我们展示了一种高效处理大量数据以找到最佳答案的方法。
现在,由EleutherAI团队维护的所有相关代码已开源供公众参考和参与。如果你对这个项目感兴趣或者想要亲自体验,可以立即访问GitHub上的项目页面并开始行动起来:
https://github.com/EleutherAI/gpt-neo
此外,还有一篇文章详细介绍了该项目及其潜力,可以进一步阅读以获得更多深入了解:
https://www.eleuther.ai/gpt-neo
https://news.ycombinator.com/item?id=25819803
— 完 —
关注QbitAI头条号,让您第一时间获知前沿科技动态!