[具身智能-305]:大模型输入和输出都是文本,Token是什么意思? 文本转Token是哪个模块实现? Token转文本又是哪个模块实现?

张开发
2026/4/9 15:43:30 15 分钟阅读

分享文章

[具身智能-305]:大模型输入和输出都是文本,Token是什么意思? 文本转Token是哪个模块实现? Token转文本又是哪个模块实现?
虽然大模型的输入和输出在人类看来都是“文本”但在模型内部它其实完全看不懂文字只认识数字。Token就是连接“人类文字”与“机器数字”的桥梁。简单来说Token 是大模型处理文本的最小单位。你可以把它理解为语言世界的“积木块”。下面我为你详细拆解这三个问题1. Token 是什么意思Token 既不是单纯的“字”也不是单纯的“词”而是一个语义片段。对于英文Token 通常是一个单词或者是单词的一部分子词。例如unbelievable可能会被拆分为[un, believ, able]这 3 个 Token。例如I love AI可能会被拆分为[I, love, AI]注意空格也被包含在内。对于中文Token 通常是一个字、一个词或者几个字组成的常见短语。例如人工智能可能会被拆分为[人工, 智能]或者[人, 工, 智, 能]具体取决于模型的训练方式。对于标点标点符号通常也是独立的 Token。为什么要用 Token因为如果按“词”处理词典会大到内存装不下生僻词太多如果按“字/字符”处理序列太长模型计算太慢且难以理解长距离语义。Token 是一种折中方案既能覆盖所有词汇又能保持较短的序列长度。2. 文本转 Token 是哪个模块实现这个模块叫做Tokenizer分词器。它是大模型的“前置翻译官”负责将人类可读的文本“切碎”并“翻译”成模型能懂的数字 ID。它的工作流程如下切分根据特定的算法如 BPE、WordPiece、SentencePiece将文本切分成一个个 Token 片段。映射在模型的“词表”中查找每个 Token 对应的数字编号Token ID。例如猫-1024喜欢-5678。向量化模型内部会将这些 ID 进一步转化为高维向量Embedding这才是模型真正计算的输入。常见算法BPE (Byte-Pair Encoding)GPT 系列常用从字符开始高频合并。WordPieceBERT 常用基于概率选择最佳切分。SentencePieceLlama 等模型常用将空格也视为字符处理适合多语言。3. Token 转文本又是哪个模块实现这个模块依然是Tokenizer分词器但执行的是解码过程。当大模型计算完下一个最可能的 Token ID 后它需要把数字变回文字展示给你。它的工作流程如下查表模型输出一个数字 ID例如1024。查找Tokenizer 拿着1024去词表里找对应的 Token 字符串例如猫。拼接将生成的 Token 序列拼接起来。清理处理一些特殊符号如去除多余的空格、处理特殊的结束符最终还原成人类可读的文本。总结大模型的工作闭环步骤角色动作模块1. 输入人类输入 你好-2. 编码Tokenizer你好 - [ID_1, ID_2]文本转 Token3. 计算大模型基于 ID 预测下一个 ID神经网络4. 解码Tokenizer[ID_3] - 世界Token 转文本5. 输出人类看到 世界-所以Tokenizer是那个“两头忙”的模块输入时负责“切碎并编号”输出时负责“查表并拼合”。

更多文章