当前位置: 首页 - 科技 - 科技部人事司如何挖掘GPT在自然环境下的隐藏实力

科技部人事司如何挖掘GPT在自然环境下的隐藏实力

2024-12-12 科技 0

克雷西,发自凹非寺

量子位 公众号 QbitAI

这个GitHub新项目,将让ChatGPT完成复杂任务,而不仅限于GPT3.5和GPT-4。它通过将问题拆解,并调用外部资源,显著提高了GPT的工作能力。在其调教下,GPT-4回答的准确率从68%提升到了85%。

经过调教后,我们也进行了测试,用倒拔垂杨柳的问题提供了三个选项:诸葛亮、孙悟空和林黛玉。由于没有直接使用到GPT-4的API,所以测试是按照开发者介绍的手工完成的。当然,这个结果不能代表它在所有情况下的表现,还需要用数据集来进一步验证。

开发者使用MMLU数据集分别对调教前后的GPT-4进行了测试,显示未经调教版本只答对了68%,而经过调教后的版本答对率高达85%。与真人专家的平均成绩89.8%相比,也有所进步。此外,在数学方面同样使用MMLU数据集进行测试,其中15个大学难度的问题虽然准确率只有60%,但已经超过原版GPT40%,是一个显著的改善。

SmartGPT中的环节被形象地比作职场中的角色:“甲方”为用户,“经理”拆分任务并汇报给“老板”,“老板”再次拆分并分发给“员工”,而“员工”编写伪代码交由执行。“小黄人”则将伪代码优化成LUA脚本运行。这一切都是为了帮助用户像普通方式输入问题,不需额外指令。

此前有人发现在输入指令中加入“let’s think step by step”的表述可以提高回复准确性,同时,由于具有回溯能力,能够发现并指出错误答案。这两个特性为SmartGpt提供了重要支持。

上述步骤受到了三篇学术论文启发,这些论文涉及链式提示方式、动态记忆及LLM自我回溯以及用对话提高LLM完成度。与其他工具相比,比如AutoGPt等,其独特之处在于其逻辑链条形成更强大的推理能力。而且,由于其独立子模块,可以任意排列组合或删改,对用户和开发人员都更加友好。但是,该项目刚刚推出,因此稳定性还有待考证,以及内存优化和环境资源消耗还存在不足。

随着项目发布,有网友表示低估了Gpt的潜力,即使包括OpenAI自己。在未来,你期待看到什么样的表现?目前Smartgpt暂无开箱可用版本,但你可以根据GitHub上的指示在Linux环境下体验:

项目地址:https://github.com/Cormanz/smartgpt

相关论文链接:

[1]. https://arxiv.org/abs/2305.02897

[2]. https://arxiv.org/abs/2303.11366

[3]. https://arxiv.org/abs/2303.17071

参考链接:

[1]. https://www.youtube.com/watch?v=wVzuvf9D9BU

[2]. https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/

— 完 —

标签: 科技的重要性和作用3一6年级科技小制作手工科技小知识摘抄20字现代科技成果科技部领导班子