2025-01-22 科技 0
在过去一年中,人工智能(AI)聊天机器模型ChatGPT迅速风靡全球。根据Similarweb最新数据显示,截至今年四月,ChatGPT平台访问量已达到17.6亿次,比三月份增长了12.6%,并且已经占据了谷歌访问量的2%。
这些大型语言模型(LLM)是基于大量文本数据训练、包含数千亿参数的复杂系统。在大数据时代,这些AI能够提升产品销售和辅助人类决策过程,但它们通常不会解释其预测结果。为了让这类AI更加强大并广泛应用于各个领域,研究可解释性(interpretability)变得至关重要,因为目前我们对这些模型内部工作原理了解非常有限。
OpenAI致力于将这些大型语言模型发展到能够像人脑一样具有“神经元”(neurons),这些神经元观察文本中的特定规律,并影响输出文本。因此,可解释性就是将模型能以通俗易懂的方式进行表达,将预测过程转化为逻辑关系规则,以便通过查看内部发现更多信息。
例如,如果有一个针对“漫威超级英雄”的神经元,当用户提问哪个超级英雄能力最强时,该神经元会提高模型回答这个问题的概率,或是弄清楚为什么人类神经元可以决定进行某些搜索引擎查询或网站访问。这是一种逐步转化无监督学习模式。
最近一次使用GPT-4来解决可解释性的问题,就是希望自动化提高AI数据准确性,是公司2022年发布《我们如何做对齐研究》的第三支柱的一部分。该方法由三个支柱支持:利用人工反馈训练;训练系统协助评估;以及训练系统进行对齐研究。
具体来说,OpenAI开发了一套包括自动化工具和测试方法的评估流程:首先,让GPT-2运行文本序列,看哪些特定神经元被频繁激活;然后让 GPT-4生成关于激活情况的一个简单说明;接着模拟 GPT-4接收到的激活情况下,它可能会做什么,以及它预测行为后是否正确等。在最后一步中,对比模拟后的得分和真实得分,可以衡量技术效果,并尝试改进技术在网络不同部分效果不佳的地方。此外,还提供了OpenAPI公开可用的代码,使学术界可以开发出新的技术来提升GPT模型解释分数。
此外,有超过1000个神经元得到了至少0.8分以上得分,这意味着他们理解了很多人类概念,同时也指出了未来需要进一步改进的地方,如迭代解释、使用更大的模型作出解释以及调整已有的结构等,用不同的激活函数训练有助于提高评分。但目前还有许多局限性,比如生成简短自然语言描述复杂行为难度很大,以及算力消耗极大等问题待解决。
最后,由Jeff Wu表示,他们希望这种技术能成为一种探索完全一般假设、形成想法和行为,以及检测安全问题的一种方法。不过,在实现这一目标之前,还有长路要走。
"我们希望这将开辟一条有前途的途径。”