GPT-4革新AI思考之门揭秘第三次科技革命中的GPT-2样本解析新纪元

2025-01-22 科技 0

自去年11月底至今，人工智能（AI）聊天机器模型ChatGPT风靡全球。根据Similarweb公布的最新数据，截至今年4月，ChatGPT平台访问量达到17.6亿次，比3月份增长了12.6%，同时已达到谷歌的2%。

ChatGPT背后的大型语言模型（LLM），是基于大量文本数据训练、包含数千亿（或更多）参数的语言模型。在大数据时代，这类 AI 机器学习模型可以在提升产品销售、辅助人类决策过程中能够起到很大的作用，但是计算机通常不会解释它们的预测结果，而语言模型想要变得更强大，部署更广泛，就需要研究可解释性（interpretability），因为人类对模型内部工作原理的理解仍然非常有限，例如可能很难从中检测到有偏见、欺骗性内容输出。

站在OpenAI 的角度看，大模型未来将和人脑一样拥有“神经元”（neurons），这些神经元会观察文本中的特定规律，进而影响到模型本身生产的文本。所以可解释性就是将模型能用通俗易懂的语言进行表达，把 모델预测过程转化成具备逻辑关系的人类理解能力，从而通过查看模式内部来发现更多信息。

例如，如果有一个针对“漫威超级英雄”的神经元，当用户向模式提问“哪个超级英雄最强”时，这个神经元就会提高模式在回答中说出漫威英雄概率，或是弄清楚为什么人类神经元，可以决定进行某些搜索引擎查询或访问特定网站，即逐步转化一种有数据可解释性的“无监督学习”模式。

OpenAI这次使用GPT-4来解决可解释性的问题，就是希望能够自动化地让机器提高 AI 数据准确性，并且是其对齐研究第三支柱的一部分。据悉，“第三支柱”是公司2022年发布《我们做对齐研究方法》，具体对齐研究将由三大支柱支持：利用人工反馈训练 AI；训练 AI 系统协助人类评估；训练 AI 系统进行对齐研究。

具体到这项研究成果上，OpenAI 开发了一套包含自动化工具和测试方法评估流程：首先，让 GPT-2 运行文本序列等待某个特定激活情况发生；然后，让 GPT-4 针对一段文本生成相应激活情况下的描述；随后，用 GPT-4 模拟 GTP-2 神经元接下来会做什么并预测行为；最后评估打分，对比模拟神经元和真实神经子的结果准确度，在下图这个例子中，得分为0.34。使用上述评分方法，可开始衡量他们技术效果并尝试改进技术。在此基础上，还提供了 OpenAPI 公开代码供学术界开发新的技术以提升 GTP 模型解释分数。

OpenAI 还发现，有超过1000个激活情况得分至少为0.8，这意味着GTP-4可以有效地处理许多与人类相同类型的问题，同时目前理解概念似乎不太符合人类思维方式。这组团队称，他们希望通过迭代使能进一步提高系统性能，如通过迭代反例修改产生假设，更大的网络作出描述以及调整已知结构等，以不同的激活函数重新训练以增加质量评价值高于原始输入标准值。此外还存在几个局限点，如无法完美执行复杂行为描述及未探索产生这种行为原因，以及算力消耗极高等挑战需要面临解决。