这十年来我国科技成就中GPT-4能否自我改进而GPT-3却不行MIT与微软代码实验的新发现让我们对此

2025-03-09 手机 0

机器之心报道

编辑：赵阳

自GPT-4以大型语言模型的领先地位展现出自我纠正生成代码能力，结合人类反馈，进一步提升其自我纠正性能。虽然大型语言模型已被证明能从自然语言中生成代码片段，但在面对复杂编码挑战时，如专业竞赛和软件工程面试，它们仍然存在巨大的难题。最近的研究尝试通过利用自修复技术来提高模型的编码性能。

下图展示了基于自修复方法的典型工作流程。在这个过程中，首先给定一个规范，然后采样程序；接着在提供的一套单元测试上执行程序；如果程序在任一单元测试中失败，则将错误消息和错误程序提供给反馈生成模型，该模型输出失败原因的简短解释；最后，将反馈传递给修复模型，该模型生成最终固化版本。

这种设计似乎非常有吸引力，因为它可以让系统克服解码过程中的离群样本错误，并且能够轻松整合来自编译器、静态分析工具和执行引擎等符号系统的反馈，模仿人类软件工程师编写代码时的试错方式。

实验绘制了通过率与 token 数量之间关系，即 pass@t。这两个量使用 bootstrapped estimates（一种统计估计方法）获得，以降低计算成本并重用相同数据集。此外，本文评估了以下问题：

在具有挑战性编程难题背景下，对于提出的模型，是否有必要进行自修复？以及何种超参数使得自修复最有效？

更强大的反馈模式会提高哪些方面？

即使是最强大的模型，让人参与提供反馈会带来更好的结果吗？

实验表明，对于 GPT-3.5 模型来说，无论 n_p 和 n_fr 的值如何，都无法实现比独立同分布采样的更高效率。而对于 GPT-4，这里有一些 n_p 和 n_fr 值，使得通过率显著高于基线，比如当 n_p=10 时，其通过率从 65% 提升至 70%，当 n_p=25 时，从 65% 提升至 71%。

此外，当使用一个更强的大型语言模型作为回调时，可以看到 M_P=GPT-3.5, M_F=GPT-4 的绝对性能略高于 GPT-3.5 独立同分布采样的效率。这表明改进回调阶段可以缓解 GPT-3.5 自动化调试的问题。

最后，本文还探讨了使用专业人类程序员提供信息对 GPT-4 自动化调试效果产生影响。结果显示，当人类参与者代替 GPT 自己进行调试时，其成功率增加超过 157%。这表明随着任务变得更加困难，即便是极为强大的 AI 也无法完全接近人类专家的准确性和有效性。本文也分析了人类参与者的反馈与 AI 反馈之间差异，并发现尽管 AI 反馈可能不够准确，但它们往往建议小范围变化，而人工智能则倾向于提出较大范围变革。

标签：手机数码商城、手机导购、小米10青春版、 oppo手机价格、红米手机缺点

上一篇：艺术客厅风格装修-绚烂色彩悠然自得艺术客厅风格装修图片大全

下一篇：水墨清澈洗浴间的隐喻空间

这十年来我国科技成就中GPT-4能否自我改进而GPT-3却不行MIT与微软代码实验的新发现让我们对此

家居美学与实用性并重房屋装修细节的艺术探索

我们应该怎样与别墅装修设计师有效沟通我们的需求和预期

简约客厅装修风格探索空间感提升的艺术之道

空间交换梦幻交易的艺术与谜题

装修不再难我用App接单改变了生活