期中总结:从神经元到 GPT——AI 架构全景回顾(Version B)

张开发
2026/4/6 8:11:58 15 分钟阅读

分享文章

期中总结:从神经元到 GPT——AI 架构全景回顾(Version B)
期中总结从神经元到 GPT——AI 架构全景回顾Version B《从零到一造大脑AI架构入门之旅》专栏专栏定位面向中学生、大学生和 AI 初学者的科普专栏用大白话和生活化比喻带你从零理解人工智能本系列共 42 篇分为八大模块 模块一【AI 基础概念】(3 篇)AI/ML/DL 关系、学习方式、深度之谜 模块二【神经网络入门】(4 篇)神经元、权重、激活函数、MLP️ 模块三【深度学习核心】(6 篇)损失函数、梯度下降、反向传播、过拟合、Batch/Epoch/LR 模块四【注意力机制】(5 篇)从 Attention 到 Transformer 模块五【NCT 与 CATS-NET 案例】(8 篇)真实架构演进全记录 模块六【架构融合方法】(6 篇)如何设计混合架构⚙️ 模块七【参数调优实战】(6 篇)学习率、正则化、超参数搜索 模块八【综合应用展望】(4 篇)未来趋势与职业规划本文是模块四第 6 篇期中总结带你回顾前四模块的核心知识。‍作者简介NeuroConscious Research Team一群热爱 AI 科普的研究者专注于神经科学启发的 AI架构设计与可解释性研究。理念“再复杂的概念也能用大白话讲清楚”。项目地址https://github.com/wyg5208/nct.git官网地址https://neuroconscious.link作者 CSDNhttps://blog.csdn.net/yweng18NCT PyPIhttps://pypi.org/project/neuroconscious-transformer/⭐欢迎 Star⭐、Fork、贡献代码本文核心比喻盖一座AI大厦从地基到封顶⏱️阅读时间约 25 分钟学习目标串联核心概念建立 AI 架构全景图 文章摘要本文是专栏的期中总结用盖大楼的比喻系统回顾前 18 篇文章的核心知识。从神经元砖块到 Transformer大厦结构从损失函数验收标准到注意力机制设计师的智慧帮你搭建完整的 AI 架构认知框架。最后通过一个简化的 GPT 架构图展示如何把砖块组合成智能大厦。 你需要先了解阅读本文前建议你✅ 已学过前 18 篇文章至少浏览过✅ 了解神经网络的基本概念✅ 对 AI 架构有好奇心如果还没读前文可以从第一篇开始补读。 正文一、AI 大厦的四层结构️ AI 大厦 四层结构第一层地基模块一└→ 什么是 AI、ML、DL它们之间的关系第二层砖块模块二└→ 神经元、权重、激活函数、MLP第三层钢筋水泥模块三└→ 损失函数、梯度下降、反向传播、优化技巧第四层设计图纸模块四└→ 注意力机制、Transformer第五层完整大厦本期预告└→ 模块五开始真实架构 NCT二、第一层地基AI 基本概念回顾2.1 三兄弟的关系┌────────────────────────────────────────────────────────────┐ │ AI/ML/DL 关系图 │ ├────────────────────────────────────────────────────────────┤ │ │ │ ┌───────────────┐ │ │ │ AI │ 人工智能让机器像人一样聪明 │ │ │ (Artificial │ │ │ │ Intelligence)│ │ │ └───────┬───────┘ │ │ │ 包含 │ │ ↓ │ │ ┌───────────────┐ │ │ │ ML │ 机器学习让机器从数据中学习规律 │ │ │Machine Learning│ │ │ └───────┬───────┘ │ │ │ 包含 │ │ ↓ │ │ ┌───────────────┐ │ │ │ DL │ 深度学习用深层神经网络自动学习特征 │ │ │ Deep Learning │ │ │ └───────────────┘ │ │ │ └────────────────────────────────────────────────────────────┘2.2 三种学习方式┌────────────────────────────────────────────────────────────┐ │ 三种学习方式 │ ├────────────────────────────────────────────────────────────┤ │ │ │ 监督学习 有老师教 │ │ • 有标签的训练数据 │ │ • 例考试题标准答案 │ │ • 应用图像分类、语音识别 │ │ │ │ 无监督学习 自己探索 │ │ • 没有标签让机器自己发现规律 │ │ • 例按兴趣自动分组 │ │ • 应用聚类、降维 │ │ │ │ 强化学习 试错成长 │ │ • 做对了奖励做错了惩罚 │ │ • 例下棋、玩游戏 │ │ • 应用游戏 AI、机器人控制 │ │ │ └────────────────────────────────────────────────────────────┘三、第二层砖块神经网络基础3.1 神经元 AI 的最小单位单个神经元的工作原理 输入 x1 ──→ [w1] ──┐ │ 输入 x2 ──→ [w2] ──→ ⊕ → [激活函数] → 输出 y │ ↑ 输入 x3 ──→ [w3] ──┘ │ │ 偏置 b 公式y activation(w1*x1 w2*x2 w3*x3 b)记忆口诀神经元三步走 加权求和加偏置 激活函数来开门。3.2 激活函数 神经元的开关┌────────────────────────────────────────────────────────────┐ │ 常见激活函数 │ ├────────────────────────────────────────────────────────────┤ │ │ │ ReLU最常用 │ │ • 公式y max(0, x) │ │ • 特点简单高效防止梯度消失 │ │ • 类比电灯开关开就是1关就是0 │ │ │ │ Sigmoid │ │ • 公式y 1/(1e^(-x)) │ │ • 特点输出0-1概率解释 │ │ • 类比百分比比如70%相信 │ │ │ │ Tanh │ │ • 公式y (e^x - e^(-x))/(e^x e^(-x)) │ │ • 特点输出-1到1零居中 │ │ • 类比温度计可正可负 │ │ │ └────────────────────────────────────────────────────────────┘3.3 多层感知机 砖块垒成墙MLP多层感知机结构 输入层 隐藏层 1 隐藏层 2 输出层 │ │ │ │ ○ ─────────→ ○ ─────────→ ○ ─────────→ ○ │ │ │ │ ○ ─────────→ ○ ─────────→ ○ ─────────→ ○ │ │ │ │ ○ ─────────→ ○ ─────────→ ○ ─────────→ ○ │ │ │ │ 特点 • 多层结构输入 → 隐藏 → 输出 • 每层多个神经元并行处理 • 全连接每层都连到下一层四、第三层钢筋水泥训练核心4.1 损失函数 验收标准损失函数 预测值和真实值的差距 ┌────────────────────────────────────────────────────────────┐ │ 常见损失函数 │ ├────────────────────────────────────────────────────────────┤ │ │ │ MSE均方误差—— 回归任务 │ │ • 公式L (预测值 - 真实值)² │ │ • 类比射击打靶离靶心越远分数越低 │ │ │ │ Cross-Entropy —— 分类任务 │ │ • 公式L -Σ 真实概率 × log(预测概率) │ │ • 类比考试选择题选错得0分选对得满分 │ │ │ │ Hinge Loss —— SVM │ │ • 公式L max(0, 1 - y*预测) │ │ • 类比拔河比赛赢了得1分输了得0分 │ │ │ └────────────────────────────────────────────────────────────┘4.2 梯度下降 蒙眼下山梯度下降 找到最低点的过程 山峰 ⛰️ ↑ │ * │ * * │ * * ← 当前所在 │ * * │* * └──────────→ 水平方向 蒙眼人的策略 1. 脚踩地面感受坡度计算梯度 2. 向最陡的下坡方向迈一步梯度下降 3. 重复直到感觉不到下坡到达最低点 数学表达 新位置 旧位置 - 学习率 × 梯度关键公式θ_new θ_old - α * ∂L/∂θ 其中 • θ 参数权重 • α 学习率步长 • ∂L/∂θ 损失函数的梯度4.3 反向传播 责任追溯反向传播 从输出倒推到输入计算每个参数的责任 前向传播做预测 输入 → [层1] → [层2] → [层3] → 输出 反向传播算责任 输出 ← [层3责任] ← [层2责任] ← [层1责任] ← 输入 链式法则 ∂L/∂θ ∂L/∂y × ∂y/∂z × ∂z/∂θ 类比公司出了质量问题要追溯责任 CEO → 总监 → 经理 → 员工4.4 过拟合 vs 欠拟合 背答案 vs 没学会┌────────────────────────────────────────────────────────────┐ │ 拟合状态三兄弟 │ ├────────────────────────────────────────────────────────────┤ │ │ │ 欠拟合 压根没学会 │ │ • 训练集、测试集表现都不好 │ │ • 模型太简单学得太少 │ │ • 解决方案加深网络、增加特征 │ │ │ │ ✅ 正常拟合 学会了 │ │ • 训练集、测试集表现都不错 │ │ • 模型复杂度适中 │ │ │ │ 过拟合 背答案 │ │ • 训练集表现很好测试集表现差 │ │ • 模型太复杂学得太死 │ │ • 解决方案正则化、Dropout、数据增强 │ │ │ └────────────────────────────────────────────────────────────┘4.5 Batch、Epoch、Learning Rate训练三要素 三把钥匙 Batch批次大小 • 一次喂多少数据给模型 • 小-batch快但不稳 • 大-batch稳但慢 • 类比一口吃一个馒头 vs 一口吃半个馒头 Epoch轮次 • 把所有数据都看一遍叫一个Epoch • 需要多个Epoch才能学会 • 类比考试前要复习好几轮 Learning Rate学习率 • 决定每一步迈多大 • 太大跳过最低点震荡 • 太小爬行太慢 • 类比下山步子太大容易摔倒太小又太慢 典型配置 • Batch 32 • Epoch 10-100 • Learning Rate 0.001五、第四层设计图纸注意力机制5.1 从 RNN 到 Transformer 的演进架构演进时间线 RNN 时代 Transformer 时代 (1990s) (2017-至今) │ │ ├─ 序列处理 ├─ 全局注意力 ├─ 顺序计算 ├─ 并行计算 ├─ 长距离依赖困难 ├─ 长距离直接相连 ├─ 梯度消失 ├─ 稳定训练 │ │ └─ 2017: Attention Is All You Need Transformer 诞生 关键里程碑 • 2017Transformer 论文发布 • 2018BERTEncoder • 2019GPT-2Decoder • 2020GPT-31750亿参数 • 2022ChatGPT • 2023-2024GPT-4、多模态5.2 注意力机制核心公式注意力 关注重点的能力 ┌────────────────────────────────────────────────────────────┐ │ Attention 计算流程 │ ├────────────────────────────────────────────────────────────┤ │ │ │ Step 1: 准备 Q、K、V │ │ QQuery 我要查询什么 │ │ KKey 我有什么关键词 │ │ VValue 关键词对应的内容 │ │ │ │ Step 2: 计算相似度 │ │ score Q · K^T / √d │ │ 点积后缩放防止数值过大 │ │ │ │ Step 3: 归一化 │ │ weight softmax(score) │ │ 把所有分数变成0-1的概率分布 │ │ │ │ Step 4: 加权求和 │ │ output weight × V │ │ 按重要性加权得到最终结果 │ │ │ └────────────────────────────────────────────────────────────┘ 完整公式 Attention(Q, K, V) softmax(QK^T / √d_k) × V5.3 自注意力 词与词对话自注意力的核心每个词都可以看所有词 输入句子The cat sat on the mat 可视化 The cat sat on the mat ────────────────────────────────────── The 0.1 0.2 0.1 0.1 0.1 0.5 ← mat 最重要 cat 0.1 0.1 0.2 0.1 0.1 0.5 ← 和 sat、mat 关联 sat 0.1 0.4 0.1 0.2 0.1 0.2 ← cat 是主语 on 0.1 0.1 0.1 0.1 0.2 0.5 ← mat 是地点 the 0.2 0.1 0.1 0.1 0.1 0.5 ← mat 最重要 mat 0.1 0.2 0.1 0.3 0.1 0.2 ← on 是介词 类比开会讨论每个人都要听所有人的意见5.4 多头注意力 多个专家同时思考多头注意力 8个脑袋同时工作 每个头关注不同方面 Head 1语法The → cat主语关系 Head 2语义cat → sat主谓关系 Head 3语义sat → on谓宾关系 Head 4语法on → mat介宾关系 Head 5位置on → the位置接近 Head 6位置the → mat位置接近 Head 7长距离The → mat首尾呼应 Head 8其他... 最后拼接 [Head1输出 | Head2输出 | ... | Head8输出] → 线性变换 → 输出 类比装修房子 • 木工负责地板 • 电工负责布线 • 水管工负责水管 • 最后组装成完整房子5.5 Transformer 架构全景图完整 Transformer 架构 输入 │ ┌──────────┴──────────┐ ↓ ↓ ┌──────────────┐ ┌──────────────┐ │ Encoder │ │ Decoder │ │ (编码器) │ ───→ │ (解码器) │ └──────────────┘ └──────────────┘ │ │ │ ┌───────────┘ │ ↓ │ ┌──────────────┐ │ │ Output │ │ │ (输出) │ │ └──────────────┘ │ │ └─────────┘ │ 输出 Encoder理解输入如 BERT • 多层 Self-Attention FFN • 双向理解上下文 Decoder生成输出如 GPT • Self-Attention Cross-Attention • 自回归生成下一个词六、知识串联迷你 GPT 实战6.1 GPT 的核心组件GPT 架构简化版 ┌────────────────────────────────────────────────────────────┐ │ Mini GPT 结构 │ ├────────────────────────────────────────────────────────────┤ │ │ │ 输入今天天气真 │ │ │ │ │ ↓ │ │ ┌─────────────────┐ │ │ │ Token Embedding│ ← 词转向量 │ │ │ Position │ ← 位置编码 │ │ │ Encoding │ │ │ └────────┬────────┘ │ │ ↓ │ │ ┌─────────────────────────────────────────┐ │ │ │ Transformer Decoder 层 │ ×N 层 │ │ │ ┌─────────────────────────────────────┐ │ │ │ │ │ Masked Self-Attention │ │ │ │ │ │ (只能看前面的词) │ │ │ │ │ └─────────────────────────────────────┘ │ │ │ │ ↓ │ │ │ │ ┌─────────────────────────────────────┐ │ │ │ │ │ Feed Forward Network │ │ │ │ │ │ (逐位前馈网络) │ │ │ │ │ └─────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────┘ │ │ ↓ │ │ ┌─────────────────┐ │ │ │ Linear Softmax│ ← 预测下一个词 │ │ └────────┬────────┘ │ │ ↓ │ │ 输出预测下一个词是好 │ │ │ └────────────────────────────────────────────────────────────┘6.2 GPT 训练过程GPT 训练 预测下一个词 训练数据今天天气真好 训练方式 Step 1: 输入今天天气真 → 预测好 Step 2: 输入今天天气真好 → 预测EOS ... 损失函数 Cross-Entropy • 目标让好的概率最大化 • 自监督学习不需要人工标注6.3 为什么 GPT 这么强GPT 强大的秘密 ┌────────────────────────────────────────────────────────────┐ │ GPT 成功要素 │ ├────────────────────────────────────────────────────────────┤ │ │ │ 1️⃣ 大量数据 │ │ • 互联网海量文本 │ │ • 学会语言规律 │ │ │ │ 2️⃣ 大量参数 │ │ • GPT-1: 1.1亿 │ │ • GPT-2: 15亿 │ │ • GPT-3: 1750亿 │ │ • 足够容量记忆复杂模式 │ │ │ │ 3️⃣ Transformer 架构 │ │ • 并行训练效率高 │ │ • 长距离依赖建模能力强 │ │ │ │ 4️⃣ 下一个词预测 │ │ • 自监督学习充分利用无标签数据 │ │ • 学会语言的一切规律 │ │ │ │ 5️⃣ 上下文学习 │ │ • 可以从少量示例中学习新任务 │ │ • 不需要重新训练 │ │ │ └────────────────────────────────────────────────────────────┘七、前四模块知识地图┌─────────────────────────────────────────────────────────────────────────┐ │ AI 架构知识地图 │ ├─────────────────────────────────────────────────────────────────────────┤ │ │ │ ┌───────────────┐ │ │ │ 模块一 │ │ │ │ AI/ML/DL │ │ │ │ 基础概念 │ │ │ └───────┬───────┘ │ │ ↓ │ │ ┌───────────────┐ │ │ │ 模块二 │ │ │ │ 神经元/权重 │ │ │ │ /激活函数 │ │ │ └───────┬───────┘ │ │ ↓ │ │ ┌───────────────┐ │ │ │ 模块三 │ │ │ │ 损失/梯度/ │ │ │ │ 反向传播 │ │ │ └───────┬───────┘ │ │ ↓ │ │ ┌───────────────┐ │ │ │ 模块四 │ │ │ │ 注意力/ │ │ │ │ Transformer │ │ │ └───────┬───────┘ │ │ ↓ │ │ ┌───────────────┐ │ │ │ 模块五 │ │ │ │ NCT 真实架构 │ ← 下一模块 │ │ │ (预告) │ │ │ └───────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────────────┘八、常见问题解答Q1为什么要多层网络一层不够吗答一层网络表达能力有限。多层网络可以逐层抽象特征边缘→形状→物体→概念用更少参数表达更复杂函数类比一栋楼比一块砖能做的事多Q2ReLU 负半轴为 0会不会丢失信息答不会。负值通常代表不重要的特征ReLU 让网络学会忽略这些保留正值重要特征更有效Q3为什么 Transformer 替代了 RNN答Transformer 有三大优势并行所有位置同时计算长依赖直接相连无信息衰减稳定梯度更稳定训练更容易Q4GPT 和 BERT 有什么区别答┌────────────────────────────────────────────────────────────┐ │ GPT vs BERT │ ├────────────────────────────────────────────────────────────┤ │ │ │ GPT生成式预训练 │ │ • Decoder-only │ │ • 单向注意力只能看前面 │ │ • 自回归生成 │ │ • 适合文本生成、对话 │ │ │ │ BERT双向编码器表示 │ │ • Encoder-only │ │ • 双向注意力看前后 │ │ • 填空任务 │ │ • 适合文本分类、NER、问答 │ │ │ └────────────────────────────────────────────────────────────┘ 一句话总结 核心结论AI 大厦 砖块(神经元) 水泥(训练) 图纸(注意力)从简单到复杂从理论到实践构建你的 AI 知识体系。记忆口诀AI 学习三兄弟监督无监督强化。 神经元是砖块激活函数来开门。 梯度下降找最低反向传播算责任。 注意力机制最牛Transformer 盖高楼。✍️ 课后作业连线题每题 10 分将左边概念与右边解释连线1. 神经元 A. 预测值和真实值的差距 2. 损失函数 B. 神经元的开关 3. 激活函数 C. AI 的最小单位 4. 梯度下降 D. 每个词看所有词 5. 自注意力 E. 蒙眼下山找最低点答案1-C, 2-A, 3-B, 4-E, 5-D画图题20 分用箭头和框图画出 Transformer 的基本结构标注 Encoder 和 Decoder。 下一篇预告 下一篇文章题目NCT 是什么——让 AI 拥有意识的尝试我们会学到NCT 框架的设计理念如何将神经科学融入 AINCT vs 普通 Transformer 的区别 本文属《从零到一造大脑AI架构入门之旅》专栏第四模块第六篇期中总结作者NeuroConscious Research Team更新时间2026 年 3 月版本号V1.0-B图文并茂版

更多文章