2025-01-25 科技 0
在ChatGPT的火爆课程中,一位名为吴恩达的大神指出了ChatGPT的一个低级错误:它无法反转单词。例如,当要求它反转“lollipop”这个词时,它输出的是“pilollol”,完全混乱。这一发现让Reddit上的网友感到惊讶,帖子热度迅速冲到了6k。
有人尝试理解ChatGPT的推理过程,并提出了一种解释:token-to-char(token到单词)比例越高,处理成本也就越高。因此,处理中文tokenize要比英文更贵。这可以这样理解,token是大模型认识和理解人类现实世界的方式,它非常简单,但能大大降低内存和时间复杂度。
然而,将单词token化存在一个问题,就是会使模型很难学习到有意义的输入表示,最直观的表示就是不能理解单词的含义。当Transformers有做过相应优化,比如将一个复杂、不常见的单词分为一个有意义的token和一个独立token,这样就保留了其语义。
这也是成就了如今ChatGPT及其他大模型产品能够很好地理解人类语言。至于无法处理单词反转这样的小任务,也自然有解决之道,如先自己把单词给分开,或让ChatGPT一步一步来,然后再编写程序或使用更高版本如GPT-4来解决这一问题。
总之,Token是AI理解自然语言的基石,而作为AI理解人类自然语言桥梁,其重要性也越来越明显。它已经成为AI模型性能优劣关键决定因素,也是计费标准。在今年开始,大型模型发布时,都会着重强调Token数量,如谷歌PaLM 2曝光细节中提到的3.6万亿个Token,以及OpenAI定价标准以1K个Token为单位进行计费,不同类型价格不同。
踏入AI大模型领域后,就会发现Token是一个绕不开的问题。而且,在中文世界里,对于“令牌”的翻译,还没有完全定下来,有人觉得叫“词元”或“标记”比较好。你觉得呢?