用PyTorch逐行复现Transformer：从Attention到MultiHead的保姆级代码解读

张开发

• 2026/4/18 16:47:15 • 15 分钟阅读

分享文章

用PyTorch逐行复现Transformer从Attention到MultiHead的保姆级代码解读Transformer架构自2017年提出以来已成为自然语言处理领域的基石模型。本文将带您从零开始用PyTorch实现一个完整的Transformer模型特别聚焦于最核心的Multi-Head Attention机制。不同于简单的API调用我们会深入每一行代码的实现逻辑让您真正掌握其设计精髓。1. 环境准备与基础模块在开始构建Transformer之前我们需要准备开发环境并实现一些基础组件。确保已安装PyTorch 1.8和Matplotlib用于可视化。import torch import torch.nn as nn import torch.nn.functional as F import math import copy import matplotlib.pyplot as plt1.1 残差连接与层归一化Transformer中大量使用了残差连接和层归一化技术这是训练深层网络的关键。我们先实现这两个基础组件class LayerNorm(nn.Module): def __init__(self, features, eps1e-6): super().__init__() self.a_2 nn.Parameter(torch.ones(features)) self.b_2 nn.Parameter(torch.zeros(features)) self.eps eps def forward(self, x): mean x.mean(-1, keepdimTrue) std x.std(-1, keepdimTrue) return self.a_2 * (x - mean) / (std self.eps) self.b_2 class SublayerConnection(nn.Module): 残差连接后接层归一化注意为了代码简洁这里先做归一化再进行子层处理与原论文顺序不同 def __init__(self, size, dropout): super().__init__() self.norm LayerNorm(size) self.dropout nn.Dropout(dropout) def forward(self, x, sublayer): return x self.dropout(sublayer(self.norm(x)))提示残差连接能有效缓解深层网络的梯度消失问题而层归一化则使每层的输入保持稳定分布两者结合大大提升了模型的训练稳定性。1.2 位置编码实现由于Transformer没有循环结构需要显式地注入序列的位置信息class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout, max_len5000): super().__init__() self.dropout nn.Dropout(pdropout) pe torch.zeros(max_len, d_model) position torch.arange(0, max_len).unsqueeze(1) div_term torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model)) pe[:, 0::2] torch.sin(position * div_term) pe[:, 1::2] torch.cos(position * div_term) pe pe.unsqueeze(0) self.register_buffer(pe, pe) def forward(self, x): x x self.pe[:, :x.size(1)] return self.dropout(x)位置编码的可视化效果如下展示了不同维度的正弦波模式plt.figure(figsize(15, 5)) pe PositionalEncoding(20, 0) y pe(torch.zeros(1, 100, 20)) plt.plot(y[0, :, 4:8].data.numpy()) plt.legend([dim %d%p for p in [4,5,6,7]])2. Attention机制核心实现2.1 缩放点积注意力这是Transformer中最核心的计算单元实现了query-key-value的注意力机制def attention(query, key, value, maskNone, dropoutNone): 计算缩放点积注意力 d_k query.size(-1) scores torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k) if mask is not None: scores scores.masked_fill(mask 0, -1e9) p_attn F.softmax(scores, dim-1) if dropout is not None: p_attn dropout(p_attn) return torch.matmul(p_attn, value), p_attn关键点解析除以√d_k是为了防止点积结果过大导致softmax梯度消失mask机制在decoder中用于防止未来信息泄露返回的不仅是加权和还有注意力权重可用于可视化2.2 Multi-Head Attention实现多头注意力允许模型同时关注不同表示子空间的信息class MultiHeadedAttention(nn.Module): def __init__(self, h, d_model, dropout0.1): super().__init__() assert d_model % h 0 self.d_k d_model // h self.h h self.linears clones(nn.Linear(d_model, d_model), 4) self.attn None self.dropout nn.Dropout(pdropout) def forward(self, query, key, value, maskNone): if mask is not None: mask mask.unsqueeze(1) nbatches query.size(0) # 1) 线性投影到h个头 query, key, value [ l(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2) for l, x in zip(self.linears, (query, key, value)) ] # 2) 计算注意力 x, self.attn attention(query, key, value, maskmask, dropoutself.dropout) # 3) 合并多头结果 x x.transpose(1, 2).contiguous() \ .view(nbatches, -1, self.h * self.d_k) return self.linears[-1](x)多头注意力的三个典型应用场景场景类型Query来源Key/Value来源作用Encoder Self-Attn前一层的输出前一层的输出捕捉全局依赖关系Decoder Self-Attn前一层的输出前一层的输出保持自回归特性Encoder-Decoder AttnDecoder输出Encoder最终输出对齐源语言和目标语言3. 前馈网络与Embedding3.1 基于位置的前馈网络每个注意力层后面都接一个全连接前馈网络class PositionwiseFeedForward(nn.Module): def __init__(self, d_model, d_ff, dropout0.1): super().__init__() self.w_1 nn.Linear(d_model, d_ff) self.w_2 nn.Linear(d_ff, d_model) self.dropout nn.Dropout(dropout) def forward(self, x): return self.w_2(self.dropout(F.relu(self.w_1(x))))3.2 Embedding层实现class Embeddings(nn.Module): def __init__(self, d_model, vocab): super().__init__() self.lut nn.Embedding(vocab, d_model) self.d_model d_model def forward(self, x): return self.lut(x) * math.sqrt(self.d_model)注意Embedding结果乘以√d_model是为了与位置编码保持相近的数值范围避免初始化阶段出现大幅值差异。4. Encoder与Decoder实现4.1 Encoder层堆叠class EncoderLayer(nn.Module): def __init__(self, size, self_attn, feed_forward, dropout): super().__init__() self.self_attn self_attn self.feed_forward feed_forward self.sublayer clones(SublayerConnection(size, dropout), 2) self.size size def forward(self, x, mask): x self.sublayer[0](x, lambda x: self.self_attn(x, x, x, mask)) return self.sublayer[1](x, self.feed_forward) class Encoder(nn.Module): def __init__(self, layer, N): super().__init__() self.layers clones(layer, N) self.norm LayerNorm(layer.size) def forward(self, x, mask): for layer in self.layers: x layer(x, mask) return self.norm(x)4.2 Decoder层实现Decoder比Encoder多了一个encoder-decoder attention层class DecoderLayer(nn.Module): def __init__(self, size, self_attn, src_attn, feed_forward, dropout): super().__init__() self.size size self.self_attn self_attn self.src_attn src_attn self.feed_forward feed_forward self.sublayer clones(SublayerConnection(size, dropout), 3) def forward(self, x, memory, src_mask, tgt_mask): m memory x self.sublayer[0](x, lambda x: self.self_attn(x, x, x, tgt_mask)) x self.sublayer[1](x, lambda x: self.src_attn(x, m, m, src_mask)) return self.sublayer[2](x, self.feed_forward) def subsequent_mask(size): 创建防止信息泄露的mask attn_shape (1, size, size) subsequent_mask torch.triu(torch.ones(attn_shape), diagonal1).type(torch.uint8) return subsequent_mask 05. 完整模型组装将所有组件组合成完整的Transformer模型class EncoderDecoder(nn.Module): def __init__(self, encoder, decoder, src_embed, tgt_embed, generator): super().__init__() self.encoder encoder self.decoder decoder self.src_embed src_embed self.tgt_embed tgt_embed self.generator generator def encode(self, src, src_mask): return self.encoder(self.src_embed(src), src_mask) def decode(self, memory, src_mask, tgt, tgt_mask): return self.decoder(self.tgt_embed(tgt), memory, src_mask, tgt_mask) def forward(self, src, tgt, src_mask, tgt_mask): return self.decode(self.encode(src, src_mask), src_mask, tgt, tgt_mask) def make_model(src_vocab, tgt_vocab, N6, d_model512, d_ff2048, h8, dropout0.1): 构建完整模型 c copy.deepcopy attn MultiHeadedAttention(h, d_model) ff PositionwiseFeedForward(d_model, d_ff, dropout) position PositionalEncoding(d_model, dropout) model EncoderDecoder( Encoder(EncoderLayer(d_model, c(attn), c(ff), dropout), N), Decoder(DecoderLayer(d_model, c(attn), c(attn), c(ff), dropout), N), nn.Sequential(Embeddings(d_model, src_vocab), c(position)), nn.Sequential(Embeddings(d_model, tgt_vocab), c(position)), nn.Linear(d_model, tgt_vocab)) # 使用Xavier初始化参数 for p in model.parameters(): if p.dim() 1: nn.init.xavier_uniform_(p) return model在实际项目中我发现初始化策略对Transformer训练至关重要。使用Xavier初始化配合适当的学习率预热能有效避免训练初期的梯度爆炸问题。

更多文章

前端开发 2026/4/18 16:46:20

保姆级教程：在Windows上用QT Creator和libmodbus调试施耐德PLC（附虚拟串口调试技巧）

工业通信实战：QT Creator与libmodbus调试施耐德PLC全流程指南工业自动化领域的开发者们常常面临一个现实问题：在没有真实PLC硬件的情况下，如何进行可靠的通信调试？本文将带你从零开始，在Windows平台上构建完整的虚拟调…

1. 项目背景与核心功能气象监测在农业、航海、能源等领域有着广泛的应用场景。传统的气象站设备往往价格昂贵且体积庞大，而基于STM32的风向风速监测系统则能以更低的成本实现高精度测量。这个项目的核心目标是通过嵌入式技术，打造一个便携、稳定且易于部…

张开发

前端开发 2026/4/18 16:28:35

Blender与虚幻引擎的桥梁：io_scene_psk_psa插件完全指南

Blender与虚幻引擎的桥梁：io_scene_psk_psa插件完全指南【免费下载链接】io_scene_psk_psa A Blender extension for importing and exporting Unreal PSK and PSA files 项目地址: https://gitcode.com/gh_mirrors/io/io_scene_psk_psa 在3D游戏开发工作流…

张开发

用PyTorch逐行复现Transformer：从Attention到MultiHead的保姆级代码解读

最新文章

给STM32以太网PHY选型：除了速率，MII和RMII接口的时钟方案怎么定？（25MHz vs 50MHz）

MyBatis使用步骤、实现机制与MyBatis-Plus扩展功能

如何在3分钟内免费实现跨平台远程桌面控制：BilldDesk Pro完全指南

Linux之权限

FanControl终极指南：3步实现Windows电脑智能风扇控制

Snipe-IT开源IT资产管理系统：从混乱到有序的企业级解决方案

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

保姆级教程：在Windows上用QT Creator和libmodbus调试施耐德PLC（附虚拟串口调试技巧）

fre:ac音频转换器：从新手到专家的完整实战指南

如何三步解锁Cursor Pro：新手也能掌握的完整指南

3步将知识星球内容变成精美PDF电子书：你的私人知识库解决方案

ComfyUI-Manager：告别节点管理混乱，打造高效AI绘画工作流

从Django信号到FastAPI依赖项：聊聊Python回调函数在Web框架里的那些‘隐身’用法

AI Agent协议实战：MCP、A2A、AG-UI三件套如何提升你的智能应用开发效率

Windows风扇控制终极指南：3步解决电脑噪音与散热难题

如何在Windows电脑上轻松安装安卓应用？APK Installer给你答案！

Python 函数文档字符串与参数注释

STM32项目实战：打造高精度风向风速监测系统

Blender与虚幻引擎的桥梁：io_scene_psk_psa插件完全指南

用PyTorch逐行复现Transformer：从Attention到MultiHead的保姆级代码解读

最新文章

给STM32以太网PHY选型：除了速率，MII和RMII接口的时钟方案怎么定？（25MHz vs 50MHz）

MyBatis使用步骤、实现机制与MyBatis-Plus扩展功能

如何在3分钟内免费实现跨平台远程桌面控制：BilldDesk Pro完全指南

Linux之权限

FanControl终极指南：3步实现Windows电脑智能风扇控制

Snipe-IT开源IT资产管理系统：从混乱到有序的企业级解决方案

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

【信息安全概论实验报告1】隐写技术