2024-12-12 科技 0
克雷西,发自凹非寺
量子位 公众号 QbitAI
这个GitHub新项目,将让ChatGPT在复杂任务上大放异彩。它支持GPT3.5和GPT-4,不仅提高了工作能力,还通过拆解问题并调用外部资源来实现这一目标。在经过调教后,GPT-4的回答准确率从68%提升到了85%。
我们也将其用于测试倒拔垂杨柳的问题,并提供了三个选项:诸葛亮、孙悟空和林黛玉。由于没有直接使用到GPT-4的API,因此我们的测试是基于开发者介绍的手工完成的。不过,由于这只是个例,我们仍需通过数据集进行更全面的测试。
开发者使用MMLU数据集对调教前后的GPT-4进行了测试。结果显示,未经调教版本只答对了68%,而调教后的版本答对了85%。与之相比,真人专家在同一类问题上的平均成绩高达89.8%。
数学方面,我们同样使用MMLU数据集进行测试,并选择了15个大学难度的问题。虽然准确率只有60%,但已经超过原版GPT40%以上。这一点证明SmartGPT在数学领域也有显著进步。
SmartGPT中的环节可以被形象地比作职场中的角色,其中“甲方”代表用户,“经理”负责分解任务并汇报给“老板”,而“员工”则执行具体操作。“小黄人”则是编写伪代码并运行LUA脚本的人。
作为用户,只需要像用普通GPT一样输入问题,而不必给出额外指令。SmartGPT会帮助用户把问题拆分,然后按照步骤提交给GPT。此前有人发现,在输入指令中加入“let’s think step by step”可以提高回复的准确率。而且,Smart G PT具有回溯能力,可以发现并指出自己此前的错误,这为其工作提供了重要支撑。
三篇学术论文启发了Smart G PT 的设计,其中包括关于链式提示方式、动态记忆及让LLM自我回溯,以及用对话提高LLM完成度的内容。此外,由于其逻辑链条形成推理能力更强,与其他工具如Auto G PT相比,它拥有更多实用的特点,如独立子模块组合可定制性强,以及配置过程简单易行。但目前该项目刚刚推出,因此稳定性还有待考证,同时在内存优化和环境资源消耗方面还有所欠缺。
尽管如此,有网友表示低估了OpenAI甚至包括OpenAI自己对于智能语言模型潜力的判断。这引起了一些讨论,即是否期待这些模型未来能够进一步发展?
目前暂无开箱可用的版本,但有兴趣读者可以根据项目页面指示在Linux环境下体验:
项目地址:https://github.com/Cormanz/smartgpt
涉及到的论文:
[1]. https://arxiv.org/abs/2305.02897
[2]. https://arxiv.org/abs/2303.11366
[3]. https://arxiv.org/abs/2303.17071