MIT与微软证实GPT-4在网络上展现自我纠错的智慧就像一位聪明的学者通过反馈不断迭代自己的代码

2025-03-09 智能 0

新智元导读：GPT-5无需手写代码，MIT微软揭秘GPT-4自我修复机制。OpenAI工程师未来只需提供反馈。我们知道大模型具有自省能力，可对其编写的代码进行自我纠错。这背后的机制究竟如何运作？模型能在多大程度上提供准确反馈？

近日，MIT和微软的研究人员发现，只有GPT-4表现出了有效的自修复能力，而且它甚至还能为GPT-3.5生成的程序提供反馈。在这个过程中，他们使用了基于token总数来衡量任务通过率的策略。

实验结果显示：

GPT-4实现了性能提升，但对于GPT-3.5，无论预算多少，都无法达到或低于基准无修复方法。

即使对于GPT-4，性能提升也有限（在7000个token时，从66%提高到71%，相当于45个独立同分布的样本）。

使用GPT-4生成反馈替换错误解释可以获得更好的自修复效果，甚至超过基准无修复方法。

使用人类程序员解释替换GPT-4可以显著改善效果，增加57%通过测试程序数量。

四阶段自我修复包括：代码生成、执行、反馈生成和代码修复。研究人员定义了这四个阶段。第一步是根据给定规范和程序模型生成代码；第二步是在测试平台上执行并获取错误信息；第三步是用反馈模型生成详细错误解释，并为每个错误产生候选性修改；最后一步是选择最佳修改方案。

作者简介：

Jianfeng Gao（高剑锋），微软杰出科学家与副总裁，是IEEE Fellow。他领导着构建大规模基础模型，以支持自然语言理解与图像识别，以及构建对话代理。

Chenglong Wang（王成龙），微软研究院研究员，他曾在华盛顿大学获得博士学位，并就读于北京大学。

参考链接：

https://twitter.com/DrJimFan/status/1675916565823516673

https://arxiv.org/pdf/2306.09896.pdf

标签：有哪些智能家居、智能语音声控手机软件、华为智能家居app下载、人工智能考研方向、智能房屋系统多少钱