当前位置: 首页 - 手机 - 2021年中国十大科技新闻事件中GPT-4能否自我改进而GPT-3却不行MIT与微软代码实验的新发现

2021年中国十大科技新闻事件中GPT-4能否自我改进而GPT-3却不行MIT与微软代码实验的新发现

2025-03-09 手机 0

机器之心报道

编辑:赵阳

在2021年中国十大科技新闻事件中,GPT-4的自我纠正能力引人注目。与此同时,大型语言模型(LLM)虽然能够生成代码片段,但在专业竞赛和软件工程面试中仍面临挑战。最近的研究尝试通过自修复技术来提高模型编码性能。

下图展示了基于自修复方法的典型工作流程。在这个过程中,给定一个规范,从代码生成模型中对程序进行采样,然后在单元测试上执行程序。如果程序失败,将错误消息和错误程序提供给反馈生成模型,该模型输出代码失败原因的简短解释。最后,反馈被传递给修复模型,该模型生成最终固化版本。

这种设计有助于系统克服解码过程中的错误,并可以轻松整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,模仿人类软件工程师编写代码时的试错方式。

实验绘制了两种量——通过率和树大小——bootstrapped estimates,以降低计算成本。本文使用APP数据集评估了这些关于Python编程挑战的问题。

结果显示,对于GPT-3.5来说,无论n_p或n_f取什么值,其自修复通过率都低于基线。而对于GPT-4,有几个n_p或n_f值,其自修复通过率超过基线。例如,当n_p=10且n_f=3时,由65%增加到70%,当n_p=25且n_f=1时,由65%增加至71%。

接下来,本文评估了使用更强反馈模型对GPT-3.5进行改进。这项研究表明,更强大的反馈确实能够缓解GPT-3.5自修复瓶颈,使其比独立同分布采样效率略高。

最后,本文探讨了人类参与者提供的反馈如何影响GPT-4自修复成功率。结果显示,当人类调试替代GPT-4调试时,总体成功率显著提升。此外,该研究还发现人类参与者的反馈往往更加准确,并且建议小变化,而不是伪代码或显式Python语句。此外,只有少数人类贡献者提供包含伪代码或显式数学/代码表达式的人类反馈字符串,这些都是自然语言形式,与大多数情况下的32/80个GPT-4回应相比,其中只有7/80个是准确无误的人类回应。此外,更多的是提出不准确的情报,而不是精确地推荐小规模变更,而且它倾向于明确提供建议而非以伪码或者直接用python语法表示为例子。但这并没有阻止它们从出现但未能解决的问题列表上获得经验,因此他们逐渐变得越来越好。

标签: 骁龙870华为女士新款最漂亮手机摩托罗拉刀锋oppo手机报价大全最新价格啥手机好用