2024-12-12 科技 0
克雷西在凹非寺的笔下,量子位公众号QbitAI传递着科技发展的火花。GitHub上的新项目,如同一颗星辰,引领了ChatGPT完成复杂任务的道路。这不仅支持GPT3.5,更是GPT-4的延伸,它通过精细拆解问题,并调用外部资源,将GPT的工作能力提升至新的高度。在它的调教之下,GPT-4回答的问题准确率从68%跃升至85%,这一进步如同山崖般巨大。
我们尝试了倒拔垂杨柳的问题测试,其中提供了诸葛亮、孙悟空和林黛玉三个选项。由于缺乏实际API,我们只能按照开发者介绍的手工模拟测试。尽管如此,数据集测试揭示了调教前后的差距:未经调教版本只答对68%,而经过调教则达到了85%。与此同时,一群真人专家在相同条件下的平均成绩高达89.8%。
数学领域也展现出显著进步。在MMLU数据集中挑选15个大学难度题目时,虽然准确率只有60%,但比原版GPT多出了40%。这些成就似乎能化整为零,每一步都在解决问题中不断迈向完美。
开发者将SmartGPT中的环节形象地比作职场角色:“甲方”用户、“经理”任务拆分、“老板”计划制定、“员工”编写伪代码和“小黄人”执行优化脚本。这一切,让用户像使用普通GPT一样输入问题,而无需额外指令。
SmartGpt会帮助用户把问题拆分,然后按照步骤提交给GPT。此前有人发现,在输入指令中加入“let’s think step by step”的表述能够提高回复准确率。而且,GPT-4具备回溯能力,可以发现并指出自己之前回答中的错误,这两点成为Smartgpt工作不可或缺的一部分。
上述过程受到了三篇学术论文启发,它们分别探讨了“链式提示方式”,“动态记忆及让LLM自我回溯”,以及“用对话提高LLM完成度”。与其他工具相比,Smartgpt之所以更胜一筹,是因为其强大的推理能力,以及可以自由组合和调整子模块,使得配置更加灵活和简单。但是,由于项目刚刚发布,有待进一步稳定性考察,并且消耗环境资源较多,这也是需要改进的地方。
随着项目推出,一些网友甚至认为我们低估了AI潜力,即便包括OpenAI本身也有这样的看法。你期待未来AI表现吗?目前Smartgpt尚未开箱可用,但对于有技术背景的人来说,只要按照GitHub项目页面指导即可体验:
https://github.com/Cormanz/smartgpt
此外,还有一系列相关论文值得关注:
[1]. https://arxiv.org/abs/2305.02897
[2]. https://arxiv.org/abs/2303.11366
[3]. https://arxiv.org/abs/2303.17071
参考链接:
[1]. https://www.youtube.com/watch?v=wVzuvf9D9BU
[2]. https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/
— 完 —
上一篇:数码对话人工智能的未来对话