2024-12-12 科技 0
克雷西,发自凹非寺
量子位 公众号 QbitAI
这个GitHub新项目,将让ChatGPT在复杂任务上大放异彩。它支持GPT3.5和GPT-4,并通过将问题拆解并调用外部资源来增强GPT的能力。在其调教下,GPT-4的回答准确率从68%提高到了85%。虽然开发者提到没有直接使用6升,但仍然取得了显著进步。
我们还用倒拔垂杨柳的问题进行了测试,提供了三个选项:诸葛亮、孙悟空和林黛玉。由于缺少GPT-4的API,我们的手工测试仅基于开发者的介绍。此外,由于个例不足以代表其表现,我们需要通过数据集进行更全面的测试。
开发者使用MMLU数据集分别对调教前后的GPT-4进行了测试。结果显示,未经调教的版本只答对了68%,而调教后的版本答对了85%。此外,在数学方面,也使用MMLU数据集进行测试,其中15个大学难度的问题被选择解决。这虽然只有60%正确率,但比原版GPT高出太多。
SmartGPT中的环节形象地被比作职场角色:“甲方”是用户,“经理”接收任务并汇报给“老板”,“员工”编写伪代码交由“小黄人”执行,而“小黄人”优化LUA脚本运行。
作为用户,只需像普通输入问题一样,不必额外指令。SmartGPT会帮助拆分问题,并按照步骤提交给GPT。此前有人发现在输入中加入"let's think step by step"可以提高回复准确率,同时,具有回溯能力,可以发现并指出错误答案。
以上特性为SmartGpt工作提供支撑。在处理完指令后,它会添加类似表述,然后传至API获取不同答案,再发送要求回溯最优解,最终展示最佳答案给用户。这一步受三篇学术论文启发,其内容涉及链式提示方式、动态记忆及LLM自我回溯,以及用对话提高LLM完成度。
与Auto Gpt相比, Smart Gpt拥有更强大的推理能力,因为它形成逻辑链条。而实用性上,它由独立子模块组成,可任意排列、组合或删改配置过程对于用户和开发人员都简单。但项目刚推出,对稳定性还有待考证,有内存优化欠缺且消耗更多环境资源。不过有网友认为低估了GPt潜力,即使包括OpenAI自己也如此。你期待GPt未来的表现吗?
目前暂无开箱可用版本,只能在Linux环境搭建,有动手能力强读者可根据项目页面指导体验:
https://github.com/Cormanz/smartgpt
涉及到的论文:
[1] https://arxiv.org/abs/2305.02897
[2] https://arxiv.org/abs/2303.11366
[3] https://arxiv.org/abs/2303.17071