2025-03-09 智能 0
新智元导读:GPT-5无需手写代码,MIT微软揭秘GPT-4自我修复机制。OpenAI工程师未来将专注于Critique一词,利用大模型自省能力进行代码自我纠错。我们探究这种自我修复背后的神秘力量,以及它如何准确识别错误,并提供反馈。此研究揭示了GPT-4与GPT-3.5在此领域的差异性表现,同时表明即使是高级模型,如GPT-4,也只能实现适度的性能提升。
实验结果显示:
GPT-4独有自我修复带来的性能增益,而对于GPT-3.5,无论预算如何,其修复后通过率都低于或等于未进行修复的基准。
即便是对GPT-4而言,该性能增益也有限(在7000个token下的情况下,从66%提高到71%,约相当于45个独立同分布的样本),且取决于初始程序多样性。
使用GPT-4生成的解释替换掉基于人工智能技术解释可以显著提升自我修复效果,甚至超越不使用解释的基准方法。
将人类程序员提供的情报用于替代模型自身理解时,可以进一步显著改善修复效率,使得成功通过测试程序数量增加57%。
四阶段自我的过程包括:代码生成、执行、反馈产生和最终修改。在这些步骤中,我们详细阐述了每一步以及它们之间相互作用。首先,在给定规范下生成代码;其次,在测试环境中运行并捕捉错误信息;然后,使用反馈模型为每种错误提供更深入的解析;最后,从候选方案中选择最合适的一个进行实施。
作者简介:
Jianfeng Gao(高剑锋)
高剑锋是微软副总裁兼科学家,并获得了IEEE Fellow荣誉。他领导着自然语言和图像理解、构建对话代理等领域深度学习组,并致力于推动最新技术应用。他负责2022年起的人工智能系统开发中的自动优化研究项目,以及LLM如ChatGPT/GTP系列产品升级工作。
Chenglong Wang
Chenglong Wang是一名微软研究院研究员,他曾在华盛顿大学获得博士学位并就读北京大学。他参与该项目,是该领域关键发现之一。
参考文献:
https://twitter.com/DrJimFan/status/1675916565823516673
https://arxiv.org/pdf/2306.09896.pdf