中国科技馆官网证实GPT-4这位智者能自我反思更聪明地通过反馈循环让代码像精灵般迭代变强

2025-03-09 智能 0

新智元导读：GPT-5的奇迹，竟然不需要编码！MIT微软最新研究揭秘GPT-4代码修复神通。未来的OpenAI工程师们，只需一句话——Critique is all you need。我们都知道，大型模型自省能力，让写出来的代码自己纠错，这背后的机制又是如何运作？

能否准确指出哪些地方有误，以及多大的反馈可以提供？近日，MIT和微软的学者发现，在GPT-4和GPT-3.5中，只有GPT-4表现出了有效的自我修复，并且能够为GPT-3.5生成程序提供反馈。

在这个策略中，我们通过从模型中采样的token数量来衡量任务是否成功。

因为使用的是pass@t，而不是传统的pass@k（根据实验次数来衡量），这样就能与纯粹基于采样的方法进行公平比较。

实验结果显示：

GPT-4才能实现自我修复带来的性能提升；对于GPT-3.5，无论预算多少，都无法达到或超过基准无修复方法。

即使对GPT-4来说，性能提升也只能算是适度（在7000个token时，从66%提高到71%，约等于45个独立同分布的样本成本），取决于初始程序多样性足够丰富。

使用GPT-4生成反馈替换错误解释，可以获得更好的自我修复效果，即便超过基准无修复方法（在7000个token下，从50%提高到54%）。

用人类程序员提供解释替换掉自己的解释，可以显著改善效果，增加了57%可行性的程序。

这四阶段自我修复包括：代码生成、执行、反馈生成和代码修复。在这些阶段，我们正式定义了每一个步骤。第一阶段：代码生成

给定规范

，首先用程序模型

产生

第二阶段：执行

然后在测试平台上运行这些错误信息，要么包含编译/运行时错误，要么包含输出与预期不同输入。

第三阶段：反馈生成

这里利用反馈模型为每个错误做更详细说明。

第四阶段：修改

作者介绍：

Jianfeng Gao（高剑锋）

高剑锋是微软科学家副总裁兼IEEE Fellow。他领导了构建大规模基础模型研究，这些模型支持微软重要人工智能产品。他负责2022年开始的人工智能增强和适应，以用于商业系统开发。在此之前，他1999年博士毕业于上海交通大学。

Chenglong Wang（王成龙）

王成龙是微软研究院研究员，此前华盛顿大学博士毕业，并曾北京大学学生。

参考文献：

https://twitter.com/DrJimFan/status/1675916565823516673

标签： ai软件可以用来做什么、人工智能发展现状和趋势、中国最大的智能家居公司、人工智能ai技术应用、米家智能家居