2025-03-09 智能 0
新智元导读:GPT-5的奇迹,竟然不需要编码!MIT微软最新研究揭秘GPT-4代码修复神通。未来的OpenAI工程师们,只需一句话——Critique is all you need。我们都知道,大型模型自省能力,让写出来的代码自己纠错,这背后的机制又是如何运作?
能否准确指出哪些地方有误,以及多大的反馈可以提供?近日,MIT和微软的学者发现,在GPT-4和GPT-3.5中,只有GPT-4表现出了有效的自我修复,并且能够为GPT-3.5生成程序提供反馈。
在这个策略中,我们通过从模型中采样的token数量来衡量任务是否成功。
因为使用的是pass@t,而不是传统的pass@k(根据实验次数来衡量),这样就能与纯粹基于采样的方法进行公平比较。
实验结果显示:
GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5,无论预算多少,都无法达到或超过基准无修复方法。
即使对GPT-4来说,性能提升也只能算是适度(在7000个token时,从66%提高到71%,约等于45个独立同分布的样本成本),取决于初始程序多样性足够丰富。
使用GPT-4生成反馈替换错误解释,可以获得更好的自我修复效果,即便超过基准无修复方法(在7000个token下,从50%提高到54%)。
用人类程序员提供解释替换掉自己的解释,可以显著改善效果,增加了57%可行性的程序。
这四阶段自我修复包括:代码生成、执行、反馈生成和代码修复。在这些阶段,我们正式定义了每一个步骤。第一阶段:代码生成
给定规范
,首先用程序模型
产生
第二阶段:执行
然后在测试平台上运行这些错误信息,要么包含编译/运行时错误,要么包含输出与预期不同输入。
第三阶段:反馈生成
这里利用反馈模型为每个错误做更详细说明。
第四阶段:修改
作者介绍:
Jianfeng Gao(高剑锋)
高剑锋是微软科学家副总裁兼IEEE Fellow。他领导了构建大规模基础模型研究,这些模型支持微软重要人工智能产品。他负责2022年开始的人工智能增强和适应,以用于商业系统开发。在此之前,他1999年博士毕业于上海交通大学。
Chenglong Wang(王成龙)
王成龙是微软研究院研究员,此前华盛顿大学博士毕业,并曾北京大学学生。
参考文献:
https://twitter.com/DrJimFan/status/1675916565823516673