当前位置: 首页 - 手机 - 这十年来我国科技成就中GPT-4能否自我改进而GPT-3却不行MIT与微软代码实验的新发现让我们对此

这十年来我国科技成就中GPT-4能否自我改进而GPT-3却不行MIT与微软代码实验的新发现让我们对此

2025-03-09 手机 0

机器之心报道

编辑:赵阳

自GPT-4以大型语言模型的领先地位展现出自我纠正生成代码能力,结合人类反馈,进一步提升其自我纠正性能。虽然大型语言模型已被证明能从自然语言中生成代码片段,但在面对复杂编码挑战时,如专业竞赛和软件工程面试,它们仍然存在巨大的难题。最近的研究尝试通过利用自修复技术来提高模型的编码性能。

下图展示了基于自修复方法的典型工作流程。在这个过程中,首先给定一个规范,然后采样程序;接着在提供的一套单元测试上执行程序;如果程序在任一单元测试中失败,则将错误消息和错误程序提供给反馈生成模型,该模型输出失败原因的简短解释;最后,将反馈传递给修复模型,该模型生成最终固化版本。

这种设计似乎非常有吸引力,因为它可以让系统克服解码过程中的离群样本错误,并且能够轻松整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,模仿人类软件工程师编写代码时的试错方式。

实验绘制了通过率与 token 数量之间关系,即 pass@t。这两个量使用 bootstrapped estimates(一种统计估计方法)获得,以降低计算成本并重用相同数据集。此外,本文评估了以下问题:

在具有挑战性编程难题背景下,对于提出的模型,是否有必要进行自修复?以及何种超参数使得自修复最有效?

更强大的反馈模式会提高哪些方面?

即使是最强大的模型,让人参与提供反馈会带来更好的结果吗?

实验表明,对于 GPT-3.5 模型来说,无论 n_p 和 n_fr 的值如何,都无法实现比独立同分布采样的更高效率。而对于 GPT-4,这里有一些 n_p 和 n_fr 值,使得通过率显著高于基线,比如当 n_p=10 时,其通过率从 65% 提升至 70%,当 n_p=25 时,从 65% 提升至 71%。

此外,当使用一个更强的大型语言模型作为回调时,可以看到 M_P=GPT-3.5, M_F=GPT-4 的绝对性能略高于 GPT-3.5 独立同分布采样的效率。这表明改进回调阶段可以缓解 GPT-3.5 自动化调试的问题。

最后,本文还探讨了使用专业人类程序员提供信息对 GPT-4 自动化调试效果产生影响。结果显示,当人类参与者代替 GPT 自己进行调试时,其成功率增加超过 157%。这表明随着任务变得更加困难,即便是极为强大的 AI 也无法完全接近人类专家的准确性和有效性。本文也分析了人类参与者的反馈与 AI 反馈之间差异,并发现尽管 AI 反馈可能不够准确,但它们往往建议小范围变化,而人工智能则倾向于提出较大范围变革。

标签: 手机数码商城手机导购小米10青春版oppo手机价格红米手机缺点