生成式 AI 模型处理文本的方式与人类不同。理解它们基于 “token” 的内部环境可能有助于解释它们的一些奇怪行为和顽固的限制。
从小型设备上的 Gemma 到 OpenAI 行业领先的 GPT-4o,大多数模型都建立在一种称为 transformer 的架构上。由于 transformers 在文本和其他类型数据之间构建关联的方式,它们无法直接处理或输出原始文本——至少在没有大量计算的情况下是不可能的。
因此,出于实际和技术原因,当今的 transformer 模型处理经过称为标记化的过程分解为较小块的文本。
Tokens 可以是单词,如 “fantastic”。或者它们可以是音节,如 “fan”,“tas” 和 “tic”。根据 tokenizer——即进行标记化的模型——它们甚至可能是单词中的单个字符(例如,“f”,“a”,“n”,“t”,“a”,“s”,“t”,“i”,“c”)。
使用这种方法,transformers 可以在达到称为上下文窗口的上限之前摄取更多信息(在语义意义上)。但标记化也会引入偏见。
有些 tokens 有奇怪的间距,这会使 transformer 出轨。例如,tokenizer 可能会将 “once upon a time” 编码为 “once”,“upon”,“a”,“time”,而将 “once upon a ”(其中有一个尾随空格)编码为 “once”,“upon”,“a”,“ ”。根据模型的提示方式——是使用 “once upon a” 还是 “once upon a ”——结果可能会完全不同,因为模型不像人类那样理解其含义是相同的。
Tokenizers 对大小写的处理也不同。“Hello” 对模型来说不一定与 “HELLO” 相同;“hello” 通常是一个 token(取决于 tokenizer),而 “HELLO” 则可能是三个(“HE”,“El” 和 “O”)。这就是为什么许多 transformers 无法通过大写字母测试。
“关于语言模型中‘单词’究竟应该是什么这个问题很难绕过去,即使我们让人类专家就一个完美的 token 词汇达成一致,模型可能仍然会发现进一步‘分块’是有用的,”东北大学研究大语言模型可解释性的博士生谢里丹·福伊特 (Sheridan Feucht) 表示。“我猜,由于这种模糊性,完美的 tokenizer 是不存在的。”
这种“模糊性”在非英语语言中会带来更多问题。
许多标记化方法假设句子中的空格表示一个新单词。这是因为它们是根据英语设计的。但并非所有语言都使用空格来分隔单词。中文和日文没有——韩文、泰文或高棉文也没有。
2023 年牛津大学的一项研究发现,由于非英语语言的标记化方式不同,transformer 处理用非英语语言描述的任务所需的时间可能是用英语描述同一任务所需时间的两倍。另一项研究发现,使用“token-efficient”,也就是耗费token较少的语言的用户可能会看到较差的模型性能并支付更多的使用费用,因为许多 AI 供应商按 token 收费。
Tokenizers 通常将像中文这种表意文字系统中的每个字符都视为一个独立的 token,从而导致高 token 数。同样,处理黏着语言(如日语和土耳其语)的 tokenizers 往往将每个词素变成一个 token,从而增加整体 token 数量。(泰语中“你好”的同义词 สวัสดี 是六个 tokens。)
2023 年,谷歌 DeepMind AI 研究员郑甄妮(Yennie Jun )进行了分析,比较了不同语言的标记化及其下游影响。使用一个翻译成 52 种语言的平行文本数据集,她发现某些语言需要多达 10 倍的 tokens 才能捕捉到英语中的相同含义。
除了语言不平等,标记化可能还解释了为什么当今的模型在数学方面表现不佳。
数字很少被一致地标记化。由于它们不知道数字是什么,tokenizers 可能会将“380”视为一个 token,但将“381”表示为一对(“38”和“1”),这有效地破坏了数字与方程和公式结果之间的关系。结果是 transformer 的混乱;最近的一篇论文显示,模型在理解重复的数字模式和上下文方面特别是时间数据方面存在困难。(此前有文章指出,GPT-4 认为 7,735 大于 7,926)。
这也是模型在解决字谜问题或反转单词方面表现不佳的原因。
因此,标记化显然为生成式 AI 带来了挑战。它们可以解决吗?
也许可以。
福伊特指出,“字节级”状态空间模型(如MambaByte),它们通过完全放弃标记化,可以在不牺牲性能的情况下摄取比 transformers 更多的数据。MambaByte 直接处理表示文本和其他数据的原始字节,在语言分析任务上与一些 transformer 模型竞争,同时更好地处理“噪音”,如字符交换、间距和大写字符。
然而,像 MambaByte 这样的模型仍处于早期研究阶段。
“让模型直接查看字符而不强加标记化可能是最好的,但目前对于 transformers 来说这在计算上是不可行的,”福伊特说。“对于 transformer 模型而言,计算随着序列长度的增加呈二次方增长,因此我们确实希望使用较短的文本表示。”
除非标记化有重大突破,否则新模型架构将是关键。
本文采用AI编译,模型训练:讯鸟云服,原文作者:Ingrid Lunden,审校排版:从林,点击查看原文链接
翻译作品,原文版权归原作者所有。未来学人仅提供翻译服务,不对原文内容或观点进行任何修改或代表。如有侵权,请联系我们删除。