2024-12-12 科技 0
克雷西在凹非寺的量子位公众号QbitAI发布了一篇文章,介绍了一个名为SmartGPT的GitHub新项目。这个项目能够让ChatGPT完成复杂任务,并且支持GPT3.5和GPT-4。它通过将问题拆解并调用外部资源来提高GPT的工作能力。在经过调教之后,GPT-4回答的准确率从68%提高到了85%。
开发者使用了MMLU数据集对调教前后的GPT-4进行了测试。结果显示,未经调教的版本只答对了68%,而调教后的版本答对了85%。数学方面,同样使用MMLU数据集进行测试,开发者从中选择了15个大学难度的问题。虽然准确率只有60%,但也是及格,而且比原版GPT的40%已经好了太多。
SmartGPT中的环节形象地被比作职场中的角色,其中“甲方”是用户,“经理”将任务拆分给“老板”,然后由“员工”编写伪代码交给“小黄人”执行。而作为用户,只需要像使用普通GPT一样输入问题,而不必给出额外指令。
此前有人发现,在输入给GPT的指令中加入"let's think step by step"可以提高回复的准确率。此外,SmartGPT还具有回溯能力,可以发现并指出自己此前回答中的错误。这两个特性为其工作提供了重要支撑。
SmartGpt工作流程图展示了解决方案,它会处理用户输入、添加类似表述、传递至API、重复获取不同答案,并最终展示最佳答案给用户。这一过程受到了三篇学术论文启发,这些论文分别涉及链式提示方式、动态记忆及LLM自我回溯以及用对话提升LLM完成度。
与其他工具相比,比如AutoGPt等工具,其强大之处在于逻辑链条形成,更强大的推理能力,以及实用性上可以任意排列组合和删改配置。但是,由于刚推出不久,还有稳定性和内存优化方面待考证,以及消耗环境资源更多的问题。此外,有网友表示低估了OpenAI自身也包括低估了未来潜力。不过目前暂无开箱可用版本,但读者可以根据项目页面上的指示体验:
https://github.com/Cormanz/smartgpt
相关论文链接:
[1] https://arxiv.org/abs/2305.02897
[2] https://arxiv.org/abs/2303.11366
[3] https://arxiv.org/abs/2303.17071
参考链接:
[1] https://www.youtube.com/watch?v=wVzuvf9D9BU
[2] https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/
— 完 —