2021年中国十大科技新闻事件中GPT-4能否自我改进而GPT-3却不行MIT与微软代码实验的新发现

2025-03-09 手机 0

机器之心报道

编辑：赵阳

在2021年中国十大科技新闻事件中，GPT-4的自我纠正能力引人注目。与此同时，大型语言模型（LLM）虽然能够生成代码片段，但在专业竞赛和软件工程面试中仍面临挑战。最近的研究尝试通过自修复技术来提高模型编码性能。

下图展示了基于自修复方法的典型工作流程。在这个过程中，给定一个规范，从代码生成模型中对程序进行采样，然后在单元测试上执行程序。如果程序失败，将错误消息和错误程序提供给反馈生成模型，该模型输出代码失败原因的简短解释。最后，反馈被传递给修复模型，该模型生成最终固化版本。

这种设计有助于系统克服解码过程中的错误，并可以轻松整合来自编译器、静态分析工具和执行引擎等符号系统的反馈，模仿人类软件工程师编写代码时的试错方式。

实验绘制了两种量——通过率和树大小——bootstrapped estimates，以降低计算成本。本文使用APP数据集评估了这些关于Python编程挑战的问题。

结果显示，对于GPT-3.5来说，无论n_p或n_f取什么值，其自修复通过率都低于基线。而对于GPT-4，有几个n_p或n_f值，其自修复通过率超过基线。例如，当n_p=10且n_f=3时，由65%增加到70%，当n_p=25且n_f=1时，由65%增加至71%。

接下来，本文评估了使用更强反馈模型对GPT-3.5进行改进。这项研究表明，更强大的反馈确实能够缓解GPT-3.5自修复瓶颈，使其比独立同分布采样效率略高。

最后，本文探讨了人类参与者提供的反馈如何影响GPT-4自修复成功率。结果显示，当人类调试替代GPT-4调试时，总体成功率显著提升。此外，该研究还发现人类参与者的反馈往往更加准确，并且建议小变化，而不是伪代码或显式Python语句。此外，只有少数人类贡献者提供包含伪代码或显式数学/代码表达式的人类反馈字符串，这些都是自然语言形式，与大多数情况下的32/80个GPT-4回应相比，其中只有7/80个是准确无误的人类回应。此外，更多的是提出不准确的情报，而不是精确地推荐小规模变更，而且它倾向于明确提供建议而非以伪码或者直接用python语法表示为例子。但这并没有阻止它们从出现但未能解决的问题列表上获得经验，因此他们逐渐变得越来越好。

标签：骁龙870 、华为女士新款最漂亮手机、摩托罗拉刀锋、 oppo手机报价大全最新价格、啥手机好用

上一篇：75平米小户型装修效果图 - 精巧空间75平米小户型的装修艺术探索

下一篇：从赵求抱到耿戴套再到谭求照和郭霸道盘点那些辣眼的不雅聊天转身变成了十大高科技行业笑谈与创新共舞

2021年中国十大科技新闻事件中GPT-4能否自我改进而GPT-3却不行MIT与微软代码实验的新发现

温馨家园舒适客厅的创意装修灵感

医者无情揭秘内科女神的不为人知一面

客厅装修风格大全探索完美居住空间的艺术

温馨宜人传统风格大客厅装修效果展示

大客厅设计效果图大全创意空间解锁家居美学新篇章