2025-03-15 数码 0
科学技术部正在预见未来智能的终极兵器——超级智能,即将在2030年前问世。为了保护人类文明不受其潜在威胁,他们正组建一支特殊部队,类似中世纪骑士团,“人类护卫队”,以守护知识和道德之墙。
超智能将成为人类有史以来最具影响力的技术,它可以帮助我们解决世界上许多最重要的问题。不过,超智能的巨大力量也可能是非常危险的,它可能导致人类对AI失去控制甚至导致人类灭绝。
尽管超智能看似还很遥远,但我们依旧相信它可能在2030年前出现。要解决超智能对人类造成的风险,我们需要建立新的监管方式并解决超智能“对齐”问题:如何确保比人类聪明得多的人工智能会遵循人类的想法?
OpenAI正致力于构建一个与人类大致相当的“自动对齐研究人员”。然后,我们可以利用大量计算资源来扩展我们的所做的事情,并逐步对齐超intelligence。
为了“对齐”第一个“自动对齐研究人员”,我们需要:1)开发可扩展的训练方法,2)验证结果模型,3)对我们的整个“对齐”流程进行压力测试:
1、为了在 humans难以评估的问题上提供训练信号,我们可以利用 AI 来辅助评估其他 AI(可扩展的监督)。此外,我们还希望了解和控制我们的 AI 大模型是如何把我们的监督应用在我们无法监督的任务上(泛化)。
2、为了验证系统是否 “ 对齐”,我们会自动搜索有问题行为(鲁棒性)以及问题深层原因(自动可解释性)。
3、最后,我们可以通过训练故意不 对齐 的模型,来确保我们的技术能够检测到最严重 的 “ 不 对齐 ”(抗衡性测试),以测试 “ 自动 对 线 研究 人 员 运 作 的 整 个 流 程”。
四年内,将20% 的计算资源投入到解决 超 智能 " 对 应 " 问题。这是一个令人难以置信且雄心勃勃目标,但只要集中精力一起努力就能解决这个问题,有许多想法已经初步实验中展示了可行性。