生成式人工智能模型,如GPT-4o,采用基于Transformer架构的复杂处理方式,这与人类处理文本的方式存在明显差异。这些模型依赖于一种称为“令牌化”的过程,将文本分解为更小的片段,称为“令牌”,以便更有效地处理信息。然而,这种令牌化过程也带来了一系列挑战和局限性。
令牌可以是单词、音节,甚至是单词中的单个字符,具体取决于所使用的分词器。这种分词方式使得模型能够在有限的上下文窗口内获取更多信息,但同时也可能引入偏见。例如,分词器可能会错误地将具有相同含义的短语“once Upon a time”和“once Upon a”编码为不同的令牌序列,导致模型产生不同的响应。
此外,分词器对大小写的处理也存在差异,这可能导致模型无法正确识别和处理大小写敏感的文本。这种局限性在非英语语言中尤为突出,因为许多语言并不使用空格来分隔单词,而分词器通常假设句子中的空格表示新单词。牛津大学2023年的研究发现,非英语语言任务的完成时间可能是英语任务的两倍,而且使用“代币效率”较低的语言的用户可能会面临更差的性能和更高的使用成本。
喜好儿网
谷歌DeepMind AI研究员Yennie Jun的分析进一步揭示了不同语言的标记化及其对下游任务的影响。某些语言可能需要多达10倍的标记才能在英语中捕获相同的含义,这不仅加剧了语言不平等,也解释了为什么当前的模型在处理数学问题时表现不佳。
数字的不一致标记化是另一个问题,分词器可能会破坏数字和方程中的关系,导致模型难以理解重复的数字模式和上下文。为了解决这些问题,一些研究者正在探索如MambaByte这样的“字节级”状态空间模型,它们可以处理更多的数据,消除标记化带来的问题,同时保持性能。
尽管如此,这些新型模型仍处于早期研究阶段,而目前对于Transformer模型来说,直接查看字符而不进行标记化在计算上是不可行的。因此,除非在标记化技术上取得突破,否则开发新的模型架构将是推动生成式人工智能发展的关键。