2025-01-26 科技 0
在一个意外的转折中,一次泄密事件不仅揭开了Meta语言大模型LLaMA背后的神秘面纱,还点燃了"ChatGPT平替"狂潮的火花。事情始于今年2月24日,当Meta发布了LLaMA,这个参数量远小于GPT-3的大型语言模型,它令人惊叹地以优异的表现引起了业界的广泛关注。尽管Meta声称其为开源,但仍需经过审核才能获得。
然而,就在一周之后,一条帖子在日本论坛4chan上悄然出现,上传了一份LLaMA模型源代码的种子文件。这份数据包大小约219G,瞬间激起千层浪,被下载超过千次。更有戏剧性的是,该链接被合并到官方GitHub页面,并得到了部分项目维护者的认可,让用户可以“点击即用”。随后,有用户提供详细教程,为那些希望自主部署该模型的人指明如何获取、修改和使用该模型。
面对这一情况,Meta官方表示将继续向通过审核的研究人员提供官方通道,同时也开始控制泄露源代码的传播。而Hugging Face平台则禁止上传此类源代码。但这场“史诗级泄露事件”却烧出了意想不到的一片火海——
接连不断地出现基于LLaMA微调的大型语言模型,如Alpaca、ChatLlama、ColossalChat和FreedomGPT等,它们都展示出与GPT-3.5相当甚至超越其性能且训练成本极低。在短短几天内,“羊驼家族”如雨后春笋般涌现,其中Vicuna和Koala两个新成员尤其引人注目,因为它们所需训练成本仅有300美元,而性能与GPT-4相近。
人们对于这些基于LLaMA开发的大型语言模型是否直接受益于最初泄露事件之争论一直持续着,有人认为这是促进AI化的一个巨大步骤;也有观点认为这是Meta公司为了扩大技术影响力而精心策划的一场操作;还有声音认为,这背后是当前开放共享VS封闭私有(或通过API分发)的科技战略之争……讨论愈演愈烈。
截至目前,LLaMA项目已经在GitHub上收获17.4k星标,而这群以它命名的小型但强大的“羊驼”,还在不懈前行。