2025-01-15 数码 0
据外媒MSPoweruser报道,GPT代表了Generative Pre-training Transformer的简称,是由Alec Radford开发的一种语言模型,2018年由埃隆·马斯克的人工智能研究实验室OpenAI发布。它通过采用生成式语言模型(两个神经网络相互竞争完善),对大量书面材料和长篇连载文本进行预训练,以获取世界知识并处理复杂的长程依赖关系。
GPT-2在2019年2月宣布,它是一款无监督的转化语言模型,在800万份文档上进行了训练,这些文档共计40GB,主要来源于Reddit用户分享的文章。然而,由于担心其可能被用于传播假新闻,埃隆·马斯克决定不公开此技术。
2020年5月,OpenAI推出了GPT-3,该模型包含参数量大约为GPT-2的两倍(1750亿个参数对比15亿个参数),显示出显著提升。在接收任何文本提示后,GPT-3能够返回一个完成的文本段落,以匹配用户提供的模式。用户甚至可以向它展示几个希望实现效果的例子,然后它会提供一篇完整的小说或故事。
除了这些应用之外,GPT-3还可以作为搜索引擎或者智慧指南使用,即使在解释和扩展复杂概念时也同样有效。不过,由于其计算需求极高—需要几千petaflop/s-day,而完整版GPT仅需几十petaflop/s-day—OpenAI警告称他们可能遇到了根本性的扩展问题。此外,还有更多关于GPT-3的事实可供探索,可以在GitHub上找到相关信息。