2025-03-09 智能 0
新智元导读:GPT-5无需手写代码,MIT微软揭秘GPT-4自我修复机制。OpenAI工程师未来仅需提供反馈。我们熟知大模型能自省,对错误代码进行纠错,但背后的机制如何运作?GPT-4与GPT-3.5相比,在自我修复方面表现卓越,并且能够为其他模型的程序提供反馈。
研究人员通过采样token总数来衡量任务成功率,使用pass@t而非传统的pass@k以确保公平性。实验结果显示:
GPT-4实现了显著性能提升,而对于GPT-3.5,无论预算多少,其修复后的通过率都低于或等同于未修复的基准方法。
即使对GPT-4来说,性能提升也有限(在7000个token预算下,从66%提高到71%,相当于45个独立同分布的GPT-4样本成本),取决于初始程序多样性。
使用GPT-4生成的解释替换掉其他模型错误解释,可获得更好的自我修复效果,即使超过了未被修改过的基准方法(在7000个token下,从50%提高到54%)。
用人类程序员提供的解释替换掉自动产生的一般可以显著改善修复效果,使得成功通过测试的程序数量增加57%.
四阶段自我修复包括代码生成、执行、反馈生成和代码修复,每一阶段都有明确定义:
阶段一:给定规范和一个程序模型,将其首先生成。
阶段二:在测试平台上执行这些程序,这些错误消息要么包含编译/运行时错误信息,要么包含与预期输出不同的示例输入。
阶段三:利用反馈模型为每个错误生成详细解释,以便候选解决方案从中分支出去,最终抵达每条反馈路径。
作者简介:
Jianfeng Gao是微软杰出的科学家和副总裁,也是IEEE Fellow。他领导构建大型基础模型项目,为微软重要人工智能产品提供支持。在此之前,他在上海交通大学获得博士学位。
Chenglong Wang是微软研究院研究员,此前曾就读华盛顿大学并毕业于北京大学。
参考链接:
https://twitter.com/DrJimFan/status/1675916565823516673
https://arxiv.org/pdf/2306.09896.pdf
上一篇:乡土韵味田间诗篇中的居家篇章
下一篇:今朝装饰时尚家居的温馨画卷