2025-01-25 手机 0
科技部人事司的神秘之门:AI如同逆时钟,抛弃了倒写单词,却意外揭开了全世界的奥秘。明敏与杨净在凹非寺中探索,这个过程就像一场奇遇。他们发现ChatGPT竟然犯低级错误?吴恩达大神最新开课指出了问题:ChatGPT不会反转单词!比如让它反转“lollipop”这个词,输出是“pilollol”,完全混乱。这确实有点大跌眼镜。
网友们在Reddit上发帖后,立马引来大量围观,帖子热度火速冲到6k。有人尝试理解ChatGPT的推理过程,他们发现token-to-char(token到单词)比例越高,处理成本也就越高。因此处理中文tokenize要比英文更贵。这可以这样理解,token是大模型认识理解人类现实世界的方式,它非常简单,还能大大降低内存和时间复杂度。但将单词token化存在一个问题,就会使模型很难学习到有意义的输入表示,最直观的表示就是不能理解单词的含义。
当Transformers有做过相应优化,比如一个复杂、不常见的单词分为一个有意义的token和一个独立token。这成就了如今ChatGPT及其他大模型产品能很好地理解人类语言。而至于无法处理单词反转这样一个小任务,也自然也有解决之道。最简单直接的是,你先自己把单词给分开喽~或者也可以让ChatGPT一步一步来,再或者让它写一个反转字母程序,然后程序对了。(狗头)
不过也可以使用GPT-4,它实测没有这样的问题。而总结来说,token就是AI理解自然语言的大本营。而作为AI理解人类自然语言桥梁中的关键因素,它已经成为AI模型性能优劣决定因素,以及计费标准之一。在今年开始,大型模型发布时,都会着重强调其数量,比如谷歌PaLM 2曝光细节中提到,它训练用到了3.6万亿个token。
此外,一些行业内的大佬也纷纷表示,更多高质量tokens真的很关键!而且他强调,不仅仅是参数规模决定了一切,更重要的是训练数据量大小。此次从特斯拉跳槽到OpenAI的人物安德烈·卡帕斯(Andrej Karpathy)曾在演讲中提出:“更多tokens能让模型更好思考。”所以,我们必须明白,在踏入AI领域的时候,对于tokens这一概念我们需要了解得更加透彻,并且认清它们对于整个系统运行效率影响巨大的作用哦!