2025-03-09 智能 0
新智元导读:GPT-5无需手写代码,MIT微软揭秘GPT-4自我修复机制。OpenAI工程师未来仅需提供反馈。我们探索大模型自省能力如何进行代码纠错,以及它对错误的准确性评估。在近日的一项研究中,MIT和微软学者发现只有GPT-4在代码修复方面表现出有效性,并且能为GPT-3.5生成的程序提供反馈。
实验表明:
GPT-4实现了自我修复带来的性能提升,而对于GPT-3.5,无论预算如何,修复后的通过率都低于或等于基准无修复方法。
即使对于GPT-4模型,性能提升也有限(在7000个token预算下,从66%提高到71%,约相当于45个独立同分布的GPT-4样本成本),并且取决于初始程序多样性。
使用GPT-4生成的反馈替换GPT-3.5解释,可以获得更好的自我修复效果,即便超过基准无修复的GTPP方法。
使用人类程序员解释替换掉模型自己的解释,可显著改善效率,将通过测试数量增加57%。
四阶段自我纠错包括:代码生成、执行、反馈生成和代码修改。研究人员定义了这四个阶段,其中第一步是根据给定的规范使用一个程序模型来生成代码;第二步是在测试平台上执行这些代码;第三步利用反馈模型为每个错误编程产生详细错误描述;最后一步则是从候选解决方案中选择最合适的一个进行修改。
作者简介:
Jianfeng Gao(高剑锋)
高剑锋是微软杰出的科学家与副总裁,也是IEEE Fellow。他领导深度学习组,在2022年起负责人工智能系统开发中的增强与适应工作。
Chenglong Wang
Chenglong Wang 是微软研究院的研究员,此前在华盛顿大学获得博士学位,并曾就读北京大学。
参考链接:
https://twitter.com/DrJimFan/status/1675916565823516673
https://arxiv.org/pdf/2306.09896.pdf