2025-03-09 智能 0
新智元导读:GPT-5的奇迹诞生,不需手写代码,MIT微软揭秘GPT-4自我修复神通。OpenAI工程师只需提供反馈,机器自省能力让代码纠错无缝。我们探寻背后的奥秘:模型如何识别错误?能否提供准确反馈?
近日,MIT与微软合作的研究显示,只有GPT-4具备有效的自我修复能力,而且它甚至可以为GPT-3.5生成程序提供反馈。这一策略通过token数量来衡量任务成功率,以便公平对比采样方法。
实验结果表明:
GPT-4能够实现性能提升,但对于GPT-3.5,在所有预算下,无论是否进行修复,其通过率都低于或等于未进行修复的基准方法。
即使对GPT-4而言,性能提升也有限(在7000个token下的通过率从66%提高到71%,相当于45个独立同分布的GPT-4样本成本),取决于初始程序多样性。
使用GPT-4生成的反馈替换GPT-3.5解释,可获得更好的自我修复效果,即使超过了未使用任何解释作为基准的无修复方法(在7000个token下,从50%提高到54%)。
替换为人类程序员解释,可以显著改善修复效果,使得可运行并通过测试的程序数量增加57%.
四阶段自我纠正包括代码生成、执行、反馈生成和修改。研究人员正式定义了这四个阶段。
作者简介:
Jianfeng Gao是微软副总裁和杰出科学家,也是IEEE Fellow。他领导构建大规模基础模型,并负责开发商业人工智能系统。他曾在上海交通大学获得博士学位。
Chenglong Wang是微软研究院研究员,他曾就读北京大学并获得华盛顿大学博士学位。
参考资料:
https://twitter.com/DrJimFan/status/1675916565823516673
https://arxiv.org/pdf/2306.09896.pdf