[具身智能-305]：大模型输入和输出都是文本，Token是什么意思？文本转Token是哪个模块实现？ Token转文本又是哪个模块实现？

张开发

• 2026/6/3 5:23:34 • 15 分钟阅读

分享文章

[具身智能-305]：大模型输入和输出都是文本，Token是什么意思？文本转Token是哪个模块实现？ Token转文本又是哪个模块实现？

虽然大模型的输入和输出在人类看来都是“文本”但在模型内部它其实完全看不懂文字只认识数字。Token就是连接“人类文字”与“机器数字”的桥梁。简单来说Token 是大模型处理文本的最小单位。你可以把它理解为语言世界的“积木块”。下面我为你详细拆解这三个问题1. Token 是什么意思Token 既不是单纯的“字”也不是单纯的“词”而是一个语义片段。对于英文Token 通常是一个单词或者是单词的一部分子词。例如unbelievable可能会被拆分为[un, believ, able]这 3 个 Token。例如I love AI可能会被拆分为[I, love, AI]注意空格也被包含在内。对于中文Token 通常是一个字、一个词或者几个字组成的常见短语。例如人工智能可能会被拆分为[人工, 智能]或者[人, 工, 智, 能]具体取决于模型的训练方式。对于标点标点符号通常也是独立的 Token。为什么要用 Token因为如果按“词”处理词典会大到内存装不下生僻词太多如果按“字/字符”处理序列太长模型计算太慢且难以理解长距离语义。Token 是一种折中方案既能覆盖所有词汇又能保持较短的序列长度。2. 文本转 Token 是哪个模块实现这个模块叫做Tokenizer分词器。它是大模型的“前置翻译官”负责将人类可读的文本“切碎”并“翻译”成模型能懂的数字 ID。它的工作流程如下切分根据特定的算法如 BPE、WordPiece、SentencePiece将文本切分成一个个 Token 片段。映射在模型的“词表”中查找每个 Token 对应的数字编号Token ID。例如猫-1024喜欢-5678。向量化模型内部会将这些 ID 进一步转化为高维向量Embedding这才是模型真正计算的输入。常见算法BPE (Byte-Pair Encoding)GPT 系列常用从字符开始高频合并。WordPieceBERT 常用基于概率选择最佳切分。SentencePieceLlama 等模型常用将空格也视为字符处理适合多语言。3. Token 转文本又是哪个模块实现这个模块依然是Tokenizer分词器但执行的是解码过程。当大模型计算完下一个最可能的 Token ID 后它需要把数字变回文字展示给你。它的工作流程如下查表模型输出一个数字 ID例如1024。查找Tokenizer 拿着1024去词表里找对应的 Token 字符串例如猫。拼接将生成的 Token 序列拼接起来。清理处理一些特殊符号如去除多余的空格、处理特殊的结束符最终还原成人类可读的文本。总结大模型的工作闭环步骤角色动作模块1. 输入人类输入你好-2. 编码Tokenizer你好 - [ID_1, ID_2]文本转 Token3. 计算大模型基于 ID 预测下一个 ID神经网络4. 解码Tokenizer[ID_3] - 世界Token 转文本5. 输出人类看到世界-所以Tokenizer是那个“两头忙”的模块输入时负责“切碎并编号”输出时负责“查表并拼合”。

更多文章

前端开发 2026/5/8 4:37:31

绝区零一条龙：5分钟掌握全自动游戏辅助的终极指南

张开发

前端开发 2026/5/8 6:45:25

Goreman RPC接口完全解析：远程控制进程的终极方案

Goreman RPC接口完全解析：远程控制进程的终极方案【免费下载链接】goreman foreman clone written in go language 项目地址: https://gitcode.com/gh_mirrors/go/goreman Goreman是一款用Go语言编写的进程管理工具，作为Foreman的克隆版本&#…

张开发

前端开发 2026/5/8 6:52:03

Greenlight Flatpak安装指南：在Linux系统上的简单部署方法

Greenlight Flatpak安装指南：在Linux系统上的简单部署方法【免费下载链接】greenlight Greenlight is an open-source client for xCloud and Xbox home streaming made in Typescript. 项目地址: https://gitcode.com/gh_mirrors/gr/greenlight Greenlight…

张开发

前端开发 2026/5/12 1:15:54

学术会议合集征稿通知

↑↑↑了解更多详细会议信息、投稿优惠请添加会议老师↑↑↑了解更多详细会议信息、投稿优惠请添加会议老师

张开发

前端开发 2026/5/21 21:43:56

vuejs-datepicker在真实项目中的应用：电商、预约、报表等场景实战

vuejs-datepicker在真实项目中的应用：电商、预约、报表等场景实战【免费下载链接】vuejs-datepicker A simple Vue.js datepicker component. Supports disabling of dates, inline mode, translations 项目地址: https://gitcode.com/gh_mirrors/vu/vuejs-datep…

张开发

前端开发 2026/5/7 11:42:40

Mongoose OS终极入门指南：10分钟快速搭建你的第一个物联网设备

Mongoose OS终极入门指南：10分钟快速搭建你的第一个物联网设备【免费下载链接】mongoose-os Mongoose OS - an IoT Firmware Development Framework. Supported microcontrollers: ESP32, ESP8266, CC3220, CC3200, STM32F4, STM32L4, STM32F7. Amazon AWS IoT, Mi…

张开发

前端开发 2026/5/8 2:18:34

AlertKit核心组件详解：深入解析Done、Heart、Error等图标动画

AlertKit核心组件详解：深入解析Done、Heart、Error等图标动画【免费下载链接】AlertKit Native alert from Apple Music & Feedback. Contains Done, Heart & Message and other presets. 项目地址: https://gitcode.com/gh_mirrors/al/AlertKit Al…

张开发

前端开发 2026/5/29 12:44:49

GitHub加速插件完全指南：解决国内访问难题的效率工具

GitHub加速插件完全指南：解决国内访问难题的效率工具【免费下载链接】Fast-GitHub 国内Github下载很慢，用上了这个插件后，下载速度嗖嗖嗖的~！ 项目地址: https://gitcode.com/gh_mirrors/fa/Fast-GitHub 你是否曾因GitHub…

张开发

前端开发 2026/5/5 20:13:38

3个步骤解决跨平台应用安装难题：APK Installer的无缝集成方案

3个步骤解决跨平台应用安装难题：APK Installer的无缝集成方案【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在数字化办公与娱乐场景中，Window…

张开发

前端开发 2026/5/8 6:49:43

OpenClaw技能市场巡礼：Qwen3.5-9B十大实用自动化模块

OpenClaw技能市场巡礼：Qwen3.5-9B十大实用自动化模块 1. 为什么需要技能市场？ 第一次接触OpenClaw时，我被它"让AI直接操作电脑"的理念震撼，但很快发现一个问题：基础框架只能完成简单的文件读写和网页操作&…

张开发

前端开发 2026/5/8 6:50:18

iperf3网络性能测试终极指南：5分钟掌握专业带宽测量工具

iperf3网络性能测试终极指南：5分钟掌握专业带宽测量工具【免费下载链接】iperf3-win-builds iperf3 binaries for Windows. Benchmark your network limits. 项目地址: https://gitcode.com/gh_mirrors/ip/iperf3-win-builds iperf3是一款功能强大的开源网络…

张开发

前端开发 2026/5/8 7:01:49

RimSort模组管理进阶指南：从冲突诊断到性能优化的系统化方案

RimSort模组管理进阶指南：从冲突诊断到性能优化的系统化方案【免费下载链接】RimSort RimSort is an open source mod manager for the video game RimWorld. There is support for Linux, Mac, and Windows, built from the ground up to be a reliable, communit…

张开发

[具身智能-305]：大模型输入和输出都是文本，Token是什么意思？文本转Token是哪个模块实现？ Token转文本又是哪个模块实现？

最新文章

FPGA异步FIFO读写位宽转换实战：从8bit到32bit的数据拼接与拆分（Vivado+Modelsim）

从图像模糊到语音识别：卷积在AI中的实战应用与Python代码示例

车载OTA升级中Docker层缓存失效导致回滚失败？3步构建可复现、可签名、可审计的分层镜像流水线（含Sigstore+Notary v2集成）

盛合晶微科创板上市，开盘市值近1858亿，无锡国资投资回报率超600%

如何用AI大模型技术一键批量生成和发布短视频？MoneyPrinterPlus全攻略

一张“网”如何拯救生命？浅谈医疗系统集成平台iPaaS

推荐文章

相关文章

分享文章

更多文章

绝区零一条龙：5分钟掌握全自动游戏辅助的终极指南

Goreman RPC接口完全解析：远程控制进程的终极方案

Greenlight Flatpak安装指南：在Linux系统上的简单部署方法

学术会议合集征稿通知

vuejs-datepicker在真实项目中的应用：电商、预约、报表等场景实战

Mongoose OS终极入门指南：10分钟快速搭建你的第一个物联网设备

AlertKit核心组件详解：深入解析Done、Heart、Error等图标动画

GitHub加速插件完全指南：解决国内访问难题的效率工具

3个步骤解决跨平台应用安装难题：APK Installer的无缝集成方案

OpenClaw技能市场巡礼：Qwen3.5-9B十大实用自动化模块

iperf3网络性能测试终极指南：5分钟掌握专业带宽测量工具

RimSort模组管理进阶指南：从冲突诊断到性能优化的系统化方案

[具身智能-305]：大模型输入和输出都是文本，Token是什么意思？ 文本转Token是哪个模块实现？ Token转文本又是哪个模块实现？

最新文章

FPGA异步FIFO读写位宽转换实战：从8bit到32bit的数据拼接与拆分（Vivado+Modelsim）

从图像模糊到语音识别：卷积在AI中的实战应用与Python代码示例

车载OTA升级中Docker层缓存失效导致回滚失败？3步构建可复现、可签名、可审计的分层镜像流水线（含Sigstore+Notary v2集成）

盛合晶微科创板上市，开盘市值近1858亿，无锡国资投资回报率超600%

如何用AI大模型技术一键批量生成和发布短视频？MoneyPrinterPlus全攻略

一张“网”如何拯救生命？浅谈医疗系统集成平台iPaaS

推荐文章

相关文章

分享文章

更多文章

[具身智能-305]：大模型输入和输出都是文本，Token是什么意思？文本转Token是哪个模块实现？ Token转文本又是哪个模块实现？