网络科技有限公司背后的秘密AI如何跳过倒写单词直接理解世界

2025-01-25 科技 0

在ChatGPT的火爆课程中，一位名为吴恩达的大神指出了ChatGPT的一个低级错误：它无法反转单词。例如，当要求它反转“lollipop”这个词时，它输出的是“pilollol”，完全混乱。这一发现让Reddit上的网友感到惊讶，帖子热度迅速冲到了6k。

有人尝试理解ChatGPT的推理过程，并提出了一种解释：token-to-char（token到单词）比例越高，处理成本也就越高。因此，处理中文tokenize要比英文更贵。这可以这样理解，token是大模型认识和理解人类现实世界的方式，它非常简单，但能大大降低内存和时间复杂度。

然而，将单词token化存在一个问题，就是会使模型很难学习到有意义的输入表示，最直观的表示就是不能理解单词的含义。当Transformers有做过相应优化，比如将一个复杂、不常见的单词分为一个有意义的token和一个独立token，这样就保留了其语义。

这也是成就了如今ChatGPT及其他大模型产品能够很好地理解人类语言。至于无法处理单词反转这样的小任务，也自然有解决之道，如先自己把单词给分开，或让ChatGPT一步一步来，然后再编写程序或使用更高版本如GPT-4来解决这一问题。

总之，Token是AI理解自然语言的基石，而作为AI理解人类自然语言桥梁，其重要性也越来越明显。它已经成为AI模型性能优劣关键决定因素，也是计费标准。在今年开始，大型模型发布时，都会着重强调Token数量，如谷歌PaLM 2曝光细节中提到的3.6万亿个Token，以及OpenAI定价标准以1K个Token为单位进行计费，不同类型价格不同。

踏入AI大模型领域后，就会发现Token是一个绕不开的问题。而且，在中文世界里，对于“令牌”的翻译，还没有完全定下来，有人觉得叫“词元”或“标记”比较好。你觉得呢？

标签：航天员、中国科协、科技馆、中国科学技术信息研究所官网、国防科技

上一篇：机器人制造工厂-智能化进程中的机器人制造工厂创新与效率的双刃剑

下一篇：空气净化器长时间运行的健康隐患

网络科技有限公司背后的秘密AI如何跳过倒写单词直接理解世界

易来智能家居热点快评固态电池未来趋势国轩高科引领潮流

想学人工智能从哪入手热点快评下一代电池向何方国轩高科看好固态未来将是我们智慧的翅膀

后宫翻身记-权谋天下后宫女主的逆袭之路

中国橡树摄影网我在中国橡树摄影网上的那些日子

两大维护国内ChatGPT大模型企业与产品全览