序列模型（语言的Transformer）以及常见的vit , 他们的整个流程分别是什么样的？每一个步骤的简单代码实现

张开发

• 2026/4/19 14:52:23 • 15 分钟阅读

分享文章

序列模型（语言的Transformer）以及常见的vit , 他们的整个流程分别是什么样的？每一个步骤的简单代码实现

文本变成 token embedding是怎么做的文本先变成token idtoken id再去查一个 embedding 表取出对应向量不是一步直接从字符串变成高维向量。第一步文本变成 token id这一步叫tokenization。例如一句话text我喜欢苹果tokenizer 不会直接把整句当一个 token它会先切成若干小片段。切法取决于 tokenizer本质上是“按词表匹配”。可能切成这样tokens[我,喜欢,苹果]然后每个 token 去词表里找编号vocab{我:10,喜欢:25,苹果:39,unk:0,}ids[vocab.get(t,vocab[unk])fortintokens]# [10, 25, 39]再变成张量input_idstorch.tensor([ids])# shape: [1, 3]# 1 是 batch_size# 3 是序列长度 Tinput_ids[10,25,39]这里面可能还会带特殊 token比如BOS句子开始EOS句子结束PAD补齐长度UNK词表里没有的 token第二步token id 变成 token embedding这一步本质上就是“查表”。先有一个 embedding 矩阵embednn.Embedding(num_embeddingsvocab_size,embedding_dimdim)如果vocab_size 50000dim 768那么这个 embedding 表的形状就是embed.weight.shape[50000,768]意思是共有50000行每一行对应一个 token 的 768 维向量如果输入是input_idstorch.tensor([[10,25,39]])# shape: [1, 3]那么xembed(input_ids)# shape: [1, 3, 768]这一步等价于x0embed.weight[10]# 我的向量x1embed.weight[25]# 喜欢的向量x2embed.weight[39]# 苹果的向量然后把它们按顺序堆起来xtorch.stack([x0,x1,x2],dim0)# [3, 768]如果加上 batch 维就是# [1, 3, 768]所以一句话token embedding 用 token id 去 embedding 矩阵里取对应那一行1. 语言 TransformerGPT 类整体流程文本 - token ids - token embedding 位置编码 - 多层 causal self-attention MLP - vocab logits - next-token loss文本变成 token id# 伪代码textACGT is a sequenceinput_idstokenizer.encode(text)# [T]input_idstorch.tensor([input_ids])# [B, T]token embeddingtok_embednn.Embedding(vocab_size,dim)xtok_embed(input_ids)# [B, T, D]位置编码postorch.arange(x.size(1),devicex.device)# [T]pos_embednn.Embedding(max_len,dim)xxpos_embed(pos)[None,:,:]# [B, T, D]线性映射出 Q/K/Vqkvnn.Linear(dim,dim*3)(x)# [B, T, 3D]q,k,vqkv.chunk(3,dim-1)拆成多头qq.view(B,T,H,Dh).transpose(1,2)# [B, H, T, Dh]kk.view(B,T,H,Dh).transpose(1,2)vv.view(B,T,H,Dh).transpose(1,2)计算 attention 分数score(q k.transpose(-2,-1))/(Dh**0.5)# [B, H, T, T]后面就是输入进Transformer模型2. 常见 ViTvanilla ViT整体流程图像 - patchify - patch embedding 位置编码 - 多层 self-attention MLP - cls token / mean pool - 分类头输入图像imagestorch.randn(B,3,224,224)# [B, C, H, W]切 patch最常见做法其实不是手写切块而是直接用Conv2d(kernelstridepatch_size)。patch_embednn.Conv2d(3,dim,kernel_size16,stride16)xpatch_embed(images)# [B, D, 14, 14]展平成 patch token 序列xx.flatten(2).transpose(1,2)# [B, N, D]# 这里 N 14 * 14 196加 cls tokenclsnn.Parameter(torch.zeros(1,1,dim))cls_tokencls.expand(B,-1,-1)# [B, 1, D]xtorch.cat([cls_token,x],dim1)# [B, N1, D]加位置编码pos_embednn.Parameter(torch.zeros(1,N1,dim))xxpos_embed线性映射出 Q/K/Vqkvnn.Linear(dim,dim*3)(x)q,k,vqkv.chunk(3,dim-1)下一步就是输入进Transformer3. 两者最本质的对应关系你可以直接这样记语言 Transformer 的输入 token 是“分词后的离散 id”。xtok_embed(input_ids)pos_embed(pos)ViT 的输入 token 是“图像 patch”。xpatch_embed(images).flatten(2).transpose(1,2)xxpos_embed两者中间主干几乎一样都是xxAttention(LN(x))xxMLP(LN(x))最大区别在 mask语言模型scorescore.masked_fill(~causal_mask,-inf)ViT# 通常不加 causal maskattnsoftmax(score)输出头不同语言模型logitslm_head(x)# 每个位置都预测下一个 tokenViTlogitscls_head(x[:,0])# 整张图输出一个类别

更多文章

前端开发 2026/4/19 14:51:28

Unity面试高频考点深度解析：从底层原理到实战应用

1. Unity面试核心知识体系解析作为一名拥有多年Unity开发经验的面试官，我经常被问到这样一个问题："Unity面试到底考什么？"今天我就带大家深入剖析Unity面试的高频考点，从底层原理到实战应用，帮你构建完整的…

张开发

前端开发 2026/4/19 14:50:34

ESP32 Arduino核心开发指南：从零开始构建智能物联网项目

ESP32 Arduino核心开发指南：从零开始构建智能物联网项目【免费下载链接】arduino-esp32 Arduino core for the ESP32 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 你是否想要快速开发ESP32物联网应用，但又觉得ESP-IDF太复杂…

张开发

前端开发 2026/4/19 14:42:47

3分钟搞定黑苹果配置：OpCore Simplify图形化工具终极指南

3分钟搞定黑苹果配置：OpCore Simplify图形化工具终极指南【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的OpenCore配置而头疼…

张开发

前端开发 2026/4/19 14:41:16

AGI硬件设计进入“毫米级热失控”预警阶段？2026奇点大会公布的11项散热-计算耦合约束条件（附开源仿真模板）

第一章：2026奇点智能技术大会：AGI与硬件设计 2026奇点智能技术大会(https://ml-summit.org) AGI架构演进对芯片微架构的倒逼效应本届大会首次公开披露了基于因果推理引擎的AGI参考架构CausalNet-7，其训练阶段需持续调度跨模态张量流&#…

张开发

前端开发 2026/4/19 14:37:56

从踩坑到精通：我的Windows+OpenSSL自建CA证书之旅，以及如何用它给Nginx签发带SAN扩展的HTTPS证书

从踩坑到精通：Windows下用OpenSSL打造私有CA并签发带SAN扩展的HTTPS证书那是个令人抓狂的周五下午，测试团队突然报告所有Chrome浏览器都在疯狂报错NET::ERR_CERT_COMMON_NAME_INVALID，而我们的内部管理系统上线截止时间就在两小时后。作为项…

张开发

前端开发 2026/4/19 14:36:56

别再只盯着准确率了！用Python的sklearn快速计算精确率、召回率和F1分数（附代码示例）

机器学习模型评估：超越准确率的实战指南刚接触机器学习分类任务时，我们很容易被"准确率"这个看似直观的指标迷惑。记得我第一次用逻辑回归做垃圾邮件分类，看到95%的准确率时差点欢呼——直到发现模型把所有邮件都预测为"非垃…

张开发

前端开发 2026/4/19 14:33:51

从概念到图纸：高扭矩电动扳手传动系统全流程设计解析

1. 高扭矩电动扳手的工程需求解析当你面对M16-M24高强度螺栓时，传统手动扳手就像用勺子挖隧道——不仅效率低下，还容易因力矩不均导致连接失效。我参与过某风电塔筒项目，工人用液压扳手拧紧M24螺栓时，经常出现预紧力波动超过15%…

张开发

前端开发 2026/4/19 14:33:09

BilibiliDown：一键下载B站视频的终极解决方案

BilibiliDown：一键下载B站视频的终极解决方案【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi/Bilibi…

张开发

前端开发 2026/4/19 14:31:38

从SURF特征匹配到点云生成：用Python+OpenCV手把手实现多视角三维重建

从SURF特征匹配到点云生成：用PythonOpenCV手把手实现多视角三维重建在计算机视觉领域，三维重建技术正以前所未有的速度改变着我们与数字世界的交互方式。想象一下，仅凭几部普通智能手机拍摄的照片，就能精确还原出一个物体的三维模…

张开发

前端开发 2026/4/19 14:30:31

汇川AM401基于Socket Client的非标协议通讯实战：从功能块解析到流程化搭建

1. 汇川AM401的Socket通讯基础认知第一次接触汇川AM401的Socket通讯功能时，我完全被那些专业术语搞懵了。后来在实际项目中摸爬滚打才发现，这套基于CODESYS架构的通讯系统其实非常直观。简单来说，它就像我们日常用的微信——AM401 PLC相当于…

张开发

前端开发 2026/4/19 14:29:24

S32K148实战：用FlexRAM配置EEPROM，告别外部存储芯片（附完整代码）

S32K148实战：用FlexRAM配置EEPROM，告别外部存储芯片（附完整代码） 在嵌入式系统设计中，存储配置往往是硬件选型的关键考量。传统方案中，工程师习惯为参数存储添加独立的EEPROM芯片，这不仅增加了B…

张开发

前端开发 2026/4/19 14:28:18

Windows 11终极优化指南：使用Win11Debloat工具一键提升50%系统性能

Windows 11终极优化指南：使用Win11Debloat工具一键提升50%系统性能【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to decl…

张开发

序列模型（语言的Transformer）以及常见的vit , 他们的整个流程分别是什么样的？每一个步骤的简单代码实现

最新文章

一文学会Excel条件格式：让数据自己“开口说话“

终极PDF视觉差异比对工具：让文档修改一目了然的专业解决方案

【D435i深度相机实战】跨平台Python数据采集：从环境搭建到RGB-D图像处理

G-Helper终极指南：如何用轻量级工具完美替代华硕Armoury Crate

深入理解Intel VT-d与DMA重映射：为什么你的NVIDIA显卡驱动会触发DRIVER_VERIFIER_DMA_VIOLATION蓝屏？

立创EDA新手避坑：从排针到蜂鸣器，我踩过的封装与驱动电路那些坑

推荐文章

如何用Notepad--这款国产跨平台编辑器提升你的文本处理效率？

如何处理SQL在主从复制下的数据更新延迟_负载均衡与读写分离

SurveyKing企业级问卷系统部署挑战与高可用架构解决方案

QuickLook Office预览插件终极指南：让文档查看快如闪电

英国网络安全专业人员的法律保护严重滞后

从BN到LN：为何NLP领域更偏爱层归一化？

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

Unity面试高频考点深度解析：从底层原理到实战应用

ESP32 Arduino核心开发指南：从零开始构建智能物联网项目

3分钟搞定黑苹果配置：OpCore Simplify图形化工具终极指南

AGI硬件设计进入“毫米级热失控”预警阶段？2026奇点大会公布的11项散热-计算耦合约束条件（附开源仿真模板）

从踩坑到精通：我的Windows+OpenSSL自建CA证书之旅，以及如何用它给Nginx签发带SAN扩展的HTTPS证书

别再只盯着准确率了！用Python的sklearn快速计算精确率、召回率和F1分数（附代码示例）

从概念到图纸：高扭矩电动扳手传动系统全流程设计解析

BilibiliDown：一键下载B站视频的终极解决方案

从SURF特征匹配到点云生成：用Python+OpenCV手把手实现多视角三维重建

汇川AM401基于Socket Client的非标协议通讯实战：从功能块解析到流程化搭建

S32K148实战：用FlexRAM配置EEPROM，告别外部存储芯片（附完整代码）

Windows 11终极优化指南：使用Win11Debloat工具一键提升50%系统性能