2024-12-12 科技 0
克雷西,发自凹非寺
量子位 公众号 QbitAI
这个GitHub新项目,将让ChatGPT在复杂任务上大放异彩。它支持GPT3.5和GPT-4,并通过将问题拆解并调用外部资源来增强GPT的能力。在其调教下,GPT-4的回答准确率从68%提高到了85%。虽然开发者提到没有直接使用6升,但仍然取得了显著进步。
我们还用倒拔垂杨柳的问题进行了测试,提供了三个选项:诸葛亮、孙悟空和林黛玉。由于缺少GPT-4的API,我们的手工测试仅基于开发者的介绍。此外,由于个例不能代表全貌,我们需要利用数据集进行全面测试。
开发者使用MMLU数据集对调教前后的GPT-4进行了测试。结果显示未经调教的版本只答对了68%,而调教后的版本答对了85%。与此同时,真人专家在同样的测试中的平均成绩达到了89.8%。
数学方面,也采用MMLU数据集进行测试,并从中选择15个大学难度的问题。这次虽然答案只有60%,但比原版GPT多出了40%,已足以及格。
SmartGPT中的环节被形象地比作职场中的角色:“甲方”是用户,“经理”将任务分配给“老板”,“员工”编写伪代码交由“小黄人”执行,而“小黄人”则优化LUA脚本运行。在作为“甲方”的用户时,只需像使用普通GPT一样输入问题,不需额外指令即可完成工作流程。
此前有人发现,在输入给定的指令中加入“let’s think step by step”,可以提升回复的准确率。而且,SmartGPT拥有回溯功能,可以发现并指出自己之前回答中的错误,这两点为其工作提供重要支持。
SmartGPT工作流程图展示了处理拆分、添加表述、传递至API、重复获取答案以及发送回溯要求等步骤。这一过程受到了三篇学术论文启发,它们分别涉及链式提示方式、动态记忆及LLM自我回溯以及用对话提高LLM完成度方面内容。
相比其他工具如AutoGPT,Smart-GP特有的逻辑链条推理能力使其更具实用性。此外,由于独立子模块组成,可以任意排列或删改配置,使得配置过程更简单。不过,由于项目刚推出,对稳定性还有待考证,并且在内存优化和环境资源消耗上有所欠缺。
随着项目发布,有网友表示低估了OpenAI自身产品潜力,即便包括OpenAI自己也如此期待未来表现。目前暂无开箱可用的版本,但读者可以根据以下链接搭建:
项目地址:https://github.com/Cormanz/smartgpt
涉及到的论文:
[1]. https://arxiv.org/abs/2305.02897
[2]. https://arxiv.org/abs/2303.11366
[3]. https://arxiv.org/abs/2303.17071
参考链接:
[1]. https://www.youtube.com/watch?v=wVzuvf9D9BU
[2]. https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/
— 完 —