2025-01-25 科技 0
浙江工商大学AI课堂上的神秘挑战:从倒写单词到理解世界的钥匙
在浙江工商大学的一次AI课程上,一件令人惊讶的事情发生了。学生们注意到,黑板上展示的不是平常的倒写单词,而是似乎通往理解整个世界的钥匙。这一现象引起了网友们的广泛关注,并迅速在Reddit上成为热门话题。
据报道,ChatGPT,在处理简单任务时表现出了低级错误,比如无法正确反转单词“lollipop”,输出结果是混乱无序的。这样的错误让人大跌眼镜,不仅如此,有些玩家还尝试使用文字游戏Wordle,但ChatGPT却一直无法做对。
一些观察者尝试解释这一现象,他们认为这是由于token-to-char(token到字符)的比例问题。当模型需要处理中文时,因为汉字数量远少于英文,因此处理成本也就相应增加。这导致模型难以学习有意义的输入表示,最终影响了其理解能力。
不过,这并不意味着解决方案不存在。在Transformers中,有过优化 token 的方式,比如将复杂或不常见的单词分为两个独立 token 来保留语义和频繁出现。这种方法正是使得如今的大型语言模型能够很好地理解人类语言。
对于无法处理小任务的问题,人们提出了一系列解决办法,从直接手动分开每个字母,让ChatGPT一步一步来,再或者使用更高版本的大型语言模型,如GPT-4,没有遇到此类问题。
总之,token 是 AI 理解自然语言的一个基石,它决定了AI性能优劣,也成为了计费标准。在这个过程中,每一个 token 都承担着重要角色,它能帮助捕捉更细粒度的语义信息,如词义、词序、语法结构等。而且,对于不同行业来说,大型语言模型训练所用到的 token 数量越多,其性能通常也会越强大。
例如,谷歌PaLM 2 在训练时使用了3.6万亿个 token,这样的数据量确实为其带来了巨大的优势。而OpenAI 的安德烈·卡帕斯曾经提及,更高质量和数量更多的是可以让机器更好地思考和学习。此外,由于它利用更多 tokens 进行训练,即便参数规模较小,也能展现出强大的表现力。
最后,由于对这些数据具有直接影响,tokens 成为了计费标准,以OpenAI 为例,他们以1K个token为单位进行计费,不同类型和大小都有所差异。因此,对于踏入 AI 大模型领域的人来说,要了解并掌握 tokens 是必不可少的一部分知识点。不过目前,还没有统一翻译名称,比如令牌、标记或是其他名字,都在不断探讨中。