2024-12-12 科技 0
克雷西在凹非寺的笔下,量子位公众号QbitAI传递了一个振奋人心的消息:GitHub上新项目能够让ChatGPT完成复杂任务,支持GPT3.5和GPT-4。这项技术通过将问题拆解并调用外部资源,大幅提升了GPT的工作效率。在其调教之下,GPT-4回答的问题准确率从68%提高到了85%。尽管不完全理解为什么没有直接使用6升的,但这无疑是一个巨大的进步。此外,我们还对倒拔垂杨柳的问题进行了测试,并提供了三个选项:诸葛亮、孙悟空和林黛玉。
需要指出的是,由于缺乏实际使用API的情况,我们的手工测试仅基于开发者的介绍。此外,虽然个例不能代表整体表现,但我们还是希望通过数据集进行更全面的测试。开发者利用MMLU数据集分别对调教前后的GPT-4进行了测试,其中结果显示未经调教版本只答对68%,而经过调教后的版本答对85%。值得一提的是,在真人专家的测试中,他们平均成绩为89.8%。
数学方面同样使用MMLU数据集进行测试,选择15个大学难度题目,其准确率虽然只有60%,但比原版GPT40%有显著提升。这项技术被形象地比作职场中的角色:“甲方”是用户,“经理”将任务拆分并汇报给“老板”,而“员工”编写伪代码交由“小黄人”执行。“小黄人”则优化伪代码并运行。在这个系统中,只需像平常一样输入问题,不需额外指令即可实现高效解决方案。
此前有人发现,在输入指令时加入“let’s think step by step”的表述可以提高回复准确性。此外,GPT-4具有回溯能力,可以发现并纠正之前回答中的错误,这两个特性为SmartGpt工作提供了重要支撑。Smartgpt会处理用户输入,将其拆分,并添加类似表述,然后向API发送请求,以获取不同的答案,并最终展示最佳答案给用户。
这些步骤受到了三篇学术论文的启发,这些论文讨论链式提示方式、动态记忆及LLM自我回溯,以及用对话提高LLM完成度。与其他工具相比,如AutoGpt等,都能优化Gpt性能,而Smartgpt在推理能力和实用性上有所超越。不仅如此,它也更加灵活易于配置。不过,由于项目刚刚推出,还存在稳定性问题以及内存优化不足等待解决。而对于是否低估了AI潜力,也引起了一些讨论。
目前暂无开箱可用的版本,需要读者自己在Linux环境搭建。但是,对于动手能力强的人来说,可以根据项目页面上的指导体验它。在未来,我们期待看到更多关于智能助手潜力的探索与应用。如果你感兴趣,可以关注我们的公众号获取更多科技动态信息!