时代科技在自然的怀抱中挖掘GPT的隐藏实力

2024-12-12 科技 0

克雷西，发自凹非寺

量子位公众号 QbitAI

这个GitHub新项目，将让ChatGPT在复杂任务上大放异彩。它支持GPT3.5和GPT-4，并通过将问题拆解并调用外部资源来增强GPT的能力。在其调教下，GPT-4的回答准确率从68%提高到了85%。虽然开发者提到没有直接使用6升，但仍然取得了显著进步。

我们还用倒拔垂杨柳的问题进行了测试，提供了三个选项：诸葛亮、孙悟空和林黛玉。由于缺少GPT-4的API，我们的手工测试仅基于开发者的介绍。此外，由于个例不能代表全貌，我们需要利用数据集进行全面测试。

开发者使用MMLU数据集对调教前后的GPT-4进行了测试。结果显示未经调教的版本只答对了68%，而调教后的版本答对了85%。与此同时，真人专家在同样的测试中的平均成绩达到了89.8%。

数学方面，也采用MMLU数据集进行测试，并从中选择15个大学难度的问题。这次虽然答案只有60%，但比原版GPT多出了40%，已足以及格。

SmartGPT中的环节被形象地比作职场中的角色：“甲方”是用户，“经理”将任务分配给“老板”，“员工”编写伪代码交由“小黄人”执行，而“小黄人”则优化LUA脚本运行。在作为“甲方”的用户时，只需像使用普通GPT一样输入问题，不需额外指令即可完成工作流程。

此前有人发现，在输入给定的指令中加入“let’s think step by step”，可以提升回复的准确率。而且，SmartGPT拥有回溯功能，可以发现并指出自己之前回答中的错误，这两点为其工作提供重要支持。

SmartGPT工作流程图展示了处理拆分、添加表述、传递至API、重复获取答案以及发送回溯要求等步骤。这一过程受到了三篇学术论文启发，它们分别涉及链式提示方式、动态记忆及LLM自我回溯以及用对话提高LLM完成度方面内容。

相比其他工具如AutoGPT，Smart-GP特有的逻辑链条推理能力使其更具实用性。此外，由于独立子模块组成，可以任意排列或删改配置，使得配置过程更简单。不过，由于项目刚推出，对稳定性还有待考证，并且在内存优化和环境资源消耗上有所欠缺。

随着项目发布，有网友表示低估了OpenAI自身产品潜力，即便包括OpenAI自己也如此期待未来表现。目前暂无开箱可用的版本，但读者可以根据以下链接搭建：

项目地址：https://github.com/Cormanz/smartgpt

涉及到的论文：

[1]. https://arxiv.org/abs/2305.02897

[2]. https://arxiv.org/abs/2303.11366

[3]. https://arxiv.org/abs/2303.17071

参考链接：

[1]. https://www.youtube.com/watch?v=wVzuvf9D9BU

[2]. https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/

— 完 —

标签：科技改变生活的10个例子、世界公认的十大高科技、科技与狠活是什么意思、女生科幻画简单又好看、免费科技开挂