收藏必备!小白程序员快速入门大模型:从视觉到多模态的深度解析

张开发
2026/4/17 20:37:59 15 分钟阅读

分享文章

收藏必备!小白程序员快速入门大模型:从视觉到多模态的深度解析
本文深入浅出地介绍了计算机视觉中的单模态任务如图像分类、目标检测、图像分割等并详细解析了卷积神经网络CNN的核心概念——卷积核。此外文章还探讨了ResNet、ViT、Swin Transformer、CLIP和ViLT等前沿模型阐述了它们在视觉和语言融合方面的突破。最后文章展望了视觉大模型的未来发展趋势强调了其在多模态领域的重要性和潜在应用价值。什么是多模态简单来说如果输入和输出都是同一种形式比如输入文字、输出文字或者输入图片、输出图片这都属于单模态。而多模态关键在于“混合”–当输入包含多种形式如文字加图片而输出是另一种形式如文字时就构成了多模态。本质上多模态就是处理和融合多种媒体形式如文本、图像、音频等的能力。接下来我们先从视觉类的单模态讲起再逐步深入到多模态。一、常见的视觉任务1、图像分类这是计算机视觉中最基础的任务。它的核心目标是让模型“看懂”一张图片的整体内容并将其归类到预定义的类别中。例如给模型输入一张动物的图片它需要判断出这是“猫”还是“狗”。2、目标检测目标检测不仅需要识别出图片中有哪些物体还需要精确定位它们的位置。具体来说模型需要在识别出物体如人、马、狗、车的同时用一个矩形框将它们框选出来。这个矩形框的专业术语叫做“边界框”Bounding Box。你可能会注意到框上有一个数值例如0.992。这个数值代表“置信度”即模型判断该物体属于所识别类别的概率。数值越高表示模型越“自信”地认为这个物体就是它所标注的类别。3、图像分割如果说目标检测是用矩形框“粗略”地框出物体那么图像分割则是对图片进行“像素级”的精细理解。它要求模型对图片中的每一个像素点进行分类判断它属于哪一个物体。图像分割主要分为两类语义分割 只区分物体的类别。例如图片中有六个人语义分割会将这六个人的所有像素点都标记为“人”这一类别通常用同一种颜色表示。实例分割 在区分类别的同时还要区分出不同的个体。例如虽然六个人都属于“人”这一类别但实例分割会将他们标记为六个不同的“实例”通常用不同颜色区分以表明他们是六个不同的人。4、人脸识别人脸识别是计算机视觉中一个高度专业化的领域。它通常包含以下几个步骤①特征点定位 模型会在人脸图像上定位数百个关键的特征点例如眼角、鼻尖、眉心、嘴唇轮廓等。这些特征点周围的区域具有非常丰富的信息是区分人脸与其他物体如动物脸或区分不同个体的关键。②人脸检测与定位 在包含多张人脸的图片中模型首先需要检测出人脸的存在并确定每张人脸的位置通常用边界框表示。**③身份识别 基于提取的特征**模型可以进一步判断这张脸属于哪一个具体的人。需要注意的是与自然语言处理领域如GPT等大模型通常使用一个通用的“基座模型”来处理多种任务不同计算机视觉领域的不同任务往往需要使用完全不同的专用模型。例如用于图像分类的模型、用于目标检测的模型和用于人脸识别的模型通常是各自独立、互不通用的。5、姿态识别姿态识别是另一个常见的视觉任务旨在理解人体的姿态和动作。给定一张照片或一段视频模型能够识别出人体上多个重要的关节点例如膝盖、脚踝、肘部、手腕等。例如通过分析关节点的相对位置和运动轨迹可以判断一个人是站立、坐着、奔跑还是在进行打架等异常行为。这在安防监控、体育分析和人机交互等领域有广泛应用。6、视觉问答接下来我们聊聊视觉问答VQA。这其实是我们现在接触得非常多的一类任务像 GPT-4o 这样的多模态大模型其核心能力就属于视觉问答。为什么需要视觉问答因为很多问题光靠文字描述不清光看图片也无法理解意图。只有将图片和文字结合起来才能完成精准的问答。举个例子针对一张披萨的图片如果你问模型“这个披萨被切成了多少份”或者“这是一个素食披萨吗”模型必须同时具备两种能力一是“看懂”图片里的内容视觉理解二是“读懂”你的问题自然语言理解。只有融合这两种模态的信息它才能给出正确的答案。这种需要联合处理图像和文本的交互式任务就是典型的视觉问答。7、视觉生成与“看懂”图片相对的是“创造”图片和视频这就是视觉生成领域。像 Sora 这样的模型以及近期备受关注的豆包Seedance 2.0都属于这一类型。它们的核心任务是根据文本描述或其它条件生成全新的、逼真的视觉内容。二、CNN卷积神经网络无论是前面提到的图像分类、目标检测还是视觉问答和视觉生成这些任务背后都离不开一个核心的深度学习模型–卷积神经网络Convolutional Neural Network, CNN。为了方便大家理解我们可以做一个简单的对比RNN (循环神经网络) 在处理序列数据比如文字、语音时非常有效因此常被用于自然语言处理NLP任务。CNN (卷积神经网络) 擅长捕捉图像中的局部特征和空间结构因此是计算机视觉CV领域的基石。在接下来的内容中我们将重点深入探讨 CNN 的核心–卷积核Convolutional Kernel。很多人觉得视觉模型比语言模型难理解往往就是卡在了“卷积核”这个概念上。它确实有些抽象但只要理解了它整个计算机视觉的大门就为你打开了。首先什么是卷积核我们可以把它看作是一个在原图上滑动的“小探测器”。假设这是一张原图我们在计算机里存储图片时会把每个像素变成 0 到 255 之间的数字RGB 三个通道分别代表红、绿、蓝。既然图片本质上就是一堆数字那我们就可以对它进行数学运算。图片作为一个输入进入神经网络经过一番计算后得到一个输出这个输出通常也是一张图片。而中间这个“计算”的过程核心就是卷积核在起作用。图中展示的这个卷积核是一个 3x3 的核意味着它有三行三列。这张原始的数字矩阵经过这样一个卷积核的处理就会生成一张新的数字矩阵输出图片。规则其实很简单就是“滑动”和“计算”。假设我们要计算输出图片中第二行第三列这个位置的像素值我们就回到原图对应的位置也就是绿色区域的中心。因为卷积核是 3x3 的所以我们以这个中心点为基准在原图上画一个 3x3 的框框住了九个像素。接下来我们让这九个像素的数值与卷积核里对应的九个数值进行“逐元素相乘”然后再相加。比如卷积核左上角是 -1原图对应位置是某个数两者相乘中间是 0对应位置的数乘以 0右下角是 1对应位置的数乘以 1。把这九个乘积加起来得到的总和就是输出图片中那个位置的数值。在这个例子中算下来正好等于 0。这个绿色的区域也就是卷积核覆盖的区域会在整张图片上像打字机一样从左到右、从上到下不停地滑动。每滑动到一个位置就进行一次这样的计算算出输出图片中对应位置的值。通过这种遍历我们就能把目标输出矩阵里的每一个数值都填满。刚才这个卷积核是一个样例它的数值设定为左边一列是 -1中间是 0右边是一列 1。你觉得这样的卷积核有什么作用其实它是在做“边缘提取”。因为它本质上是在用右边一列的像素值减去左边一列的像素值。如果一个地方的像素值发生了剧烈变化比如从黑变白说明这里有明显的边缘如果变化平缓说明是平滑的区域。所以这种核能敏锐地捕捉到图像中的垂直边缘。如果我们换一个卷积核呢比如下图这样一个核中间是 4周围是 1 和 2最后再乘以 1/16。这其实是一个“模糊”核。它的工作原理是让每个像素都跟它周围的“邻居”像素求平均。虽然中间像素的权重4/16比周围的1/16 或 2/16大一些但因为掺杂了周围的信息原本锐利的边界就会被“抹平”从而让图片看起来变模糊了。比如下图中清晰的眼角、帽檐在经过这种计算后就会变得柔和、模糊。左边清楚右边模糊这就是这种核的效果。如果我们连续做多次这样的卷积操作图片就会越来越模糊。但是世界上的卷积核有无数种。每一种不同的卷积核都能起到不同的作用比如美白、祛痘、增强对比度等等。在真正的卷积神经网络里我们并不需要手动去设计这些核比如专门写代码让它变模糊或变清晰。在模型训练开始时这些卷积核里的数值都是随机的。它到底最终会变成一个“边缘检测器”还是一个“纹理探测器”完全取决于它要识别什么任务。模型会通过大量的数据训练自动调整这些数值参数找到最适合完成当前任务的卷积核组合。这也就是 CNN 智能的来源。所以卷积核到底是干嘛用的它的核心使命就一个字“抽”也就是提取特征。这里还有一个很有意思的细节卷积核的大小。我们常见的卷积核都是 3x3、5x5、7x7 这种正方形而且通常是奇数。为什么不用长方形为什么不用 8x8①正方形 vs 长方形图像通常是各向同性的虽然有时候也有方向性正方形核在设计上更通用计算上也更规整。虽然理论上可以用长方形但在通用模型设计中大家更倾向于用堆叠的小正方形来代替这样灵活性更高。②奇数用奇数3, 5, 7主要是为了有一个明确的中心点。就像你在地图上画个圈有个中心点才好对齐位置。如果是偶数比如 4x4就没有一个绝对的中心像素做特征对齐时会很麻烦。所以卷积核就是 CNN 的眼睛它通过这种“滑动窗口”的方式把一张图从像素层面一步步拆解成计算机能理解的特征语言。尺度究竟是什么简单来说它指的就是我们观察和分析事物时所采用的范围和精细程度。为了让你更直观地理解我们可以借助一个生活中的例子观察一架飞机。想象你眼前有一张非常清晰的飞机照片。因为图片很大离你很近你能看清许许多多的细节机身上的标识、窗户的颜色甚至轮子上的纹理。这个时候你就是在小尺度或高分辨率下观察关注的是局部的、精细的细节。现在如果我们将这张图片不断缩小飞机在画面中会变得越来越小。当它缩到很小的时候你已经看不清任何细节了但你依然能一眼认出它的整体轮廓知道它是一架飞机而不是一只鸟或一个风筝。这时你就是在大尺度或低分辨率下观察关注的是整体的形状和结构。这个概念在计算机视觉中至关重要尤其是在卷积神经网络CNN里。我们可以把网络中的“卷积核”想象成一个固定大小的取景框比如5x5像素。当这个取景框放在一张巨大的图片上时它可能只能捕捉到飞机的一个小零件比如一小段机翼边缘也就是纹理特征。但当图片被整体缩小后同样大小的取景框却能覆盖飞机的很大一部分甚至整个机身从而捕捉到形状和结构特征。所以一个优秀的模型必须具备“多尺度”的识别能力。它需要学会无论飞机在图片中是巨大还是渺小是只露出一个尾巴还是完整的机身都能准确判断出“这是一架民航客机”。这种能力确保了模型在面对各种尺寸、各种距离的现实照片时都能稳定地工作。多尺度是视觉领域的核心概念。它与自然语言处理有很大不同文字的语义不会因为我们离得远近而改变。当然从图片中识别文字的OCR技术属于视觉任务不在我们讨论的语言模型范畴之内。理解了尺度我们就能更好地理解卷积核是如何工作的了。还记得我们之前文章提到的那个识别手写数字的案例吗使用的是 MNIST 数据库。在这个案例里输入的图片其实很小只有一张 28×28 像素的黑白照片总共 784 个像素点。如上图也就是一个手写的数字“2”。首先原始图像进入卷积层。假设我们使用 n1 个不同的卷积核例如 5×5 大小每个卷积核会生成一张特征图。由于未做填充padding28×28 的图像经过 5×5 卷积核处理后尺寸会缩小一圈变为 24×24。因此这一步会得到 n1 张 24×24 的特征图。接下来是池化层通常采用最大池化Max Pooling。以 2×2 的池化窗口为例它会将每个 2×2 的区域压缩为一个值取最大值从而使特征图的尺寸减半。因此n1 张 24×24 的特征图经过池化后会变成 n1 张 12×12 的特征图。这一操作不仅减少了数据量还保留了最显著的特征。随后网络会再次进行卷积和池化操作。假设这次使用了 n2 个 5×5 的卷积核。每个卷积核会扫描上一步输出的所有特征图并生成新的特征图。通常 n2 会大于 n1例如两倍以提取更复杂的特征。经过卷积后12×12 的特征图会再次缩小为 8×8然后再经过一次 2×2 的池化操作尺寸进一步减半为 4×4。最终我们得到了 n2 张 4×4 的特征图。最后一步是全连接层。首先将所有特征图“拉平”成一个一维向量。例如若 n28则总共有 4×4×8128 个数值。这个 128 维的向量作为输入进入全连接神经网络进行最终的分类计算。网络的输出是 10 个概率值分别对应数字 0 到 9。整个过程的核心是特征提取与分类。卷积层和池化层负责从图像中逐层提取关键特征而全连接层则基于这些特征做出最终判断。其中所有可训练的参数都集中在卷积核的数值中。三、ResNet – Residual neural network论文下载地址https://arxiv.org/pdf/1512.03385首先我们来看一下“ResNet”这篇非常重要的论文。这篇论文源自微软亚洲研究院其核心作者是著名的华人科学家何恺明。这是他在2015年关于卷积神经网络领域的一项里程碑式的研究成果。实际上这与我们开发语言模型的思路有共通之处即卷积神经网络也倾向于通过堆叠多层结构来构建模型。正如我们所知随着网络层数的增加比如从六层、八层继续加深理论上能够提取出更深层次、更抽象的特征。为了说明这一点我们可以设想一个图像识别任务假设你的目标是判断一张输入图片中是否有人。通常我们会设计特定的卷积神经网络架构并在最后接上一个线性层来执行“有人”或“无人”的二分类判断。在这个过程中我们可以调整任务的难度。比如识别“机器人”和识别“人类”哪一个更简单显然识别人类相对更简单。因为机器人的结构和形状往往与人类相似但其质地通常具有明显区别比如金属质感、特定的关节结构以及各种零件。如果我们将任务难度进一步提升例如识别图片中是否存在“变形金刚”这类特定的机器人问题就变得更加复杂了。因为变形金刚不仅具有机械特征还包含大黄蜂、擎天柱等不同角色特有的外观细节以及高达等不同形态。为了准确识别模型不仅需要判断物体是否由机械构成还需要提取更细致的纹理特征和结构特征比如机械关节的灵活性或特定的装甲设计。这就促使我们不自觉地构建更深的网络结构来提取出这些深层特征。然而随着网络深度的不断增加一个反直觉的现象出现了模型的效果并没有显著提升反而出现了下降。正如论文中展示的实验结果所示当网络变得非常深时其训练误差甚至会高于较浅的网络。例如在图表中红色线条代表的56层深度神经网络其训练错误率反而高于黄色线条代表的20层神经网络。这说明单纯增加深度并不总能带来性能增益。造成这一现象的原因主要有两个方面。第一是训练过程中的“退化问题”即随着层数加深梯度在反向传播时需要经过大量的层导致梯度消失或梯度爆炸使得网络前端的参数难以得到有效更新。第二是过拟合风险当模型层数过多、参数量过大而训练数据集的规模没有相应增加时模型的拟合能力会过强。它不仅记住了关键特征还记住了训练数据中的噪音和无关细节比如特定的背景草地或天空导致模型在面对新数据时泛化能力变差。为了解决这一难题何恺明团队提出了“残差连接”的方法。其基本原理是在构建多层网络时改变传统的信息流动方式。通常输入 X 经过某一层计算得到输出 F(x)然后 F(x) 作为下一层的输入。但在残差网络中我们增加一条“捷径”将原始输入 X 直接与计算结果 F(x) 相加使得下一层的输入变为 F(x)X。这意味着每一层的输出不再仅仅是变换后的结果而是原始输入与变换结果的叠加。这种设计的核心逻辑在于“保持下限”。假设我们有一个表现良好的20层模型现在想要通过增加层数来提升性能。如果没有残差连接新增的层可能会破坏原有的特征表示。但有了残差连接后即使新增的层在训练初期效果不佳甚至只需要将残差 F(x) 学习为0网络也能退化为一个较浅的网络。换句话说如果新增的层没有起到积极作用至少不会破坏原来已经有效的信息流。这种机制允许信息和梯度在多层网络间畅通无阻地流动极大地缓解了梯度消失问题。这种结构就是我们所说的“残差连接”。自2015年被提出以来它被证实是一种极为有效的设计。特别是在降低模型误差方面其表现尤为突出。从实验数据可以清晰地看到这一点在引入残差连接后一个18层的网络所达到的误差率竟然优于一个34层的普通网络。这个结果有力地证明了残差连接能够让我们在增加网络深度的同时有效避免性能下降从而构建出功能更强大的模型。基于这种创新ResNet在2015年的ImageNet竞赛中取得了压倒性胜利并迅速成为深度学习领域的基石。它使得训练500层甚至1000层的超深网络成为可能。自那以后几乎所有的人工智能模型包括后续的Transformer架构都融入了这种残差结构。何恺明的这一贡献不仅解决了深度学习中的一个根本性难题也深刻地影响了后续模型的设计范式。四、ViT – Vision Transformer论文下载地址https://arxiv.org/pdf/2010.11929接下来我们将探讨Vision TransformerViT。首先需要明确的是ViT并非残差网络尽管此前我们讨论过的ResNet在深度卷积神经网络CNN领域取得了巨大成功。ResNet的核心贡献在于通过残差连接机制突破了网络深度的限制使得构建数百层甚至上千层的CNN成为可能。然而在随后的几年里计算机视觉领域似乎陷入了一段缺乏显著突破的沉寂期。这一局面的形成与自然语言处理NLP领域的飞速发展密切相关。自2017年Transformer架构问世到2018年GPT的诞生直至2020年GPT-3引发全球关注学术界的研究重心一度高度集中于语言模型。在此背景下计算机视觉领域相对平静直到2020年Google Research团队发表了一篇具有里程碑意义的论文正式提出了Vision TransformerViT。ViT的全称即视觉Transformer其核心思想是将原本用于处理序列数据的Transformer架构直接应用于图像处理任务。这一构想源于一个关键洞察既然Transformer凭借自注意力机制成功取代了NLP中的循环神经网络RNN那么在长期依赖CNN进行特征提取的视觉领域是否也能实现类似的替代如上图所示ViT的核心方法是将输入图像分割成一系列大小固定的方形图像块Patch例如16×16或32×32像素的小方格。无论原始图像尺寸如何这些图像块都可以被“拉平”成一维向量序列。以一个3×3的图像块网格为例拉平后即形成包含9个Patch的序列。这与NLP中将文本切分为Token类似只不过视觉领域的基本单元是图像块。每个图像块包含16×16256个像素这些像素值构成了一个256维的向量。随后这些向量会通过一个线性投影层Linear层映射到Transformer模型所需的高维嵌入空间。值得注意的是这一步骤在概念上对应于NLP中的词嵌入Word Embedding过程即将离散的词汇符号转化为连续的向量表示。在完成向量化之后ViT沿用了标准Transformer编码器的处理流程。首先为了保留图像的空间位置信息模型会为每个图像块向量添加相应的位置编码Positional Encoding。此外ViT还会在序列的开头加入一个特殊的分类令牌[CLS] Token向量。这一设计借鉴了GPT-1等模型的思路即利用特定位置的向量来聚合全局信息最终用于图像分类任务。当这组包含[CLS] Token和图像块Token的向量序列输入到Transformer编码器后多头自注意力机制Multi-Head Self-Attention便开始发挥作用。该机制允许序列中的各个元素即图像的不同部分相互交换信息并计算相关性。例如人体的胳膊与躯干、小腿与大腿由于在空间上具有强关联性它们的向量在计算过程中会产生较高的相关度权重而房顶与马路等不相关的部分其相关度系数则会很低。通过这种带有加权求和的交互模型能够逐步构建出对图像整体结构的深层理解。值得注意的是ViT仅使用了Transformer的编码器部分因此不涉及解码器中的掩码机制。这意味着在计算相关性时任意两个图像块之间都可以直接交互不受顺序限制。经过多层编码器的特征提取与融合最终输出的[CLS] Token向量会被送入一个线性分类器从而识别出图像中包含的物体类别如鸟类、汽车或飞机等。整个过程完全摒弃了传统的卷积操作展示了纯注意力机制在视觉任务中的可行性。尽管在初期评测中ViT的性能表现并非总是最优但其设计理念极具前瞻性。它的诞生不仅仅是为了验证在图像识别任务上能否替代CNN更是为了构建一个能够统一处理多模态数据的基础模型。所谓“统一”愿景即探索是否能仅用单一模型结构来处理文字、图片等多种类型的数据。ViT虽然最初仅针对单模态的图像输入但它通过将图像转化为序列数据的方式为实现这一宏大目标奠定了坚实的基础。五、Swin Transformer论文下载地址https://arxiv.org/pdf/2103.14030在Vision TransformerViT问世后微软亚洲研究院提出了名为Swin Transformer的技术。尽管Google在提出开创性方向如Transformer和Vision Transformer方面贡献巨大但这些模型在各类榜单上的具体表现并非始终名列前茅。相比之下微软亚洲研究院采取了更为务实的策略他们认为尽管基础方案优秀但模型结构中的细节仍需深入打磨只有完善这些细节才能进一步释放模型潜力。这种务实的态度与当年OpenAI接手并扩展Transformer架构的路径颇为相似。当时Google提出了宏大的方向但因内部研究小组分散、资源有限难以将这些想法推向极致。而像OpenAI和微软研究院这样的组织则通过整合资源将这些方向转化为具有强大竞争力的成果。Swin Transformer正是这一思路的体现。与ViT不同Swin Transformer并未采用全局自注意力机制而是引入了“移位窗口”shifted window的概念。它将图像分割成不重叠的局部窗口并在每个窗口内计算自注意力从而避免了对无关区域如图像左上角与右下角进行冗余计算。此外Swin Transformer还通过多尺度设计考虑了图像的尺度变化在浅层网络中使用较小的局部窗口捕捉细节而在深层网络中逐步扩大窗口范围以捕获全局结构整个过程完全摒弃了卷积操作纯粹依赖Transformer的多头自注意力机制。这种设计被称为“移位窗口”是因为窗口在不同层之间会进行位移从而允许不同窗口间的patch进行信息交换。例如在第一轮自注意力计算中信息在局部窗口内聚合而在第二轮即移位后的窗口中该位置有机会与相邻窗口的元素进行交互从而实现跨区域的信息融合。这种机制不仅降低了计算复杂度还使得模型能够有效地捕捉局部与全局的依赖关系。Swin Transformer的性能提升显著在多个基准测试中准确率提升了2~3个百分点。在2020年的计算机视觉领域这样的提升幅度是非常可观的足以在顶级会议上发表。值得注意的是这些提升完全基于纯视觉输入和移位窗口机制不依赖任何卷积操作。六、CLIP – Contrastive Language-Image Pre-training论文下载地址https://arxiv.org/pdf/2103.000202021年发布的CLIP模型与Swin Transformer的论文发布时间仅相隔一两个月。但我觉得CLIP是多模态领域首次真正意义上实现了人类语言与视觉信息的深度融合。正是它的出现催生了后续众多的多模态应用例如文生图如Stable Diffusion、Midjourney以及Sora等项目如果没有CLIP奠定的基础这些后续发展几乎不可能实现。关于CLIP其名称是“Contrastive Language-Image Pre-training”的缩写其中“C”代表Contrastive对比“L”代表Language语言“I”代表Image图像其核心逻辑相当简洁。回顾当时的技术背景以ViT、ResNet为代表的模型都在执行基于ImageNet数据集的图像识别任务。ImageNet是一个包含约1400万张图片、超过两万个类别标签的庞大数据集。然而早期的视觉模型存在一个根本性问题对于机器而言无论是“狗”、“猫”还是“汽车”这些标签本质上都只是毫无语义的ID编号如ID137、ID138。模型虽然能输出“狗”这个标签但它并不理解“狗”这个词在人类语言中的实际含义。这种机制导致模型非常僵化一旦需要识别训练时未见过的新类别比如从100类扩展到101类就必须重新训练或调整模型结构。传统图像识别技术并未真正实现语言与视觉的融合而CLIP的目标正是连接人类的视觉与语言。这一目标之所以伟大是因为人类的学习过程本就是多模态同步的–我们在学习语言时往往伴随着视觉信息的输入例如小时候父母教我们识物时会指着杯子说“这是杯子”而不是闭着眼睛单纯学习语言。如果一个模型能将视觉和语言结合它就更有可能模拟人脑的运作方式。如上图所示CLIP的模型结构主要由两部分组成一个Text Encoder文本编码器基于Transformer架构和一个Image Encoder图像编码器可以是ViT或ResNet。它准备了从互联网上收集的4亿组“图像-文本”对作为训练数据。训练的核心方法是对比学习Contrastive Learning将一一对应的图文对输入两个编码器得到对应的向量表示。模型的目标是让匹配的图文对正样本在向量空间中的相似度尽可能高而不匹配的图文对负样本相似度尽可能低。通过这种方式模型逐渐学会将语义相似的图文内容映射到同一数学空间的相近位置。在推理阶段CLIP展现出了强大的“零样本”Zero-shot能力。例如在面对ImageNet等数据集的分类任务时它不需要任何额外的训练。具体做法是将数据集的类别标签如“dog”、“cat”填充到预设的文本模板中例如转换为“A photo of a dog”生成对应的文本描述然后通过文本编码器得到文本向量。接着将待分类的图片通过图像编码器得到图像向量并计算该向量与所有类别文本向量的相似度。相似度最高的类别即为最终的预测结果。这种方法彻底打破了固定类别标签的束缚将语言作为了分类器。无论下游任务有多少个类别CLIP都能通过自然语言提示灵活迁移无需针对特定任务进行微调。它成功地将人类的视觉信息和语言信息整合到了同一个数学空间中后续的许多文生图、文生视频模型基本都是基于CLIP的这一思想构建的。七、ViLT --Vision-and-Language Transformer论文下载地址https://arxiv.org/pdf/2102.03334最后介绍的是2021年提出的Vilt模型该模型被视为多模态领域爆发的重要标志。Vilt与Vit的核心区别在于Vit仅为视觉转换器而Vilt则为视觉和语言转换器。尽管Vilt与Clip在名称上相似且都涉及视觉与语言的范畴但二者在架构上存在关键差异。CLIP模型采用双编码器结构即分别使用独立的编码器处理文本和图像并将其映射为向量再通过比较向量相似性得出结论。Vilt则进一步深化了这一思路摒弃了双编码器方案转而仅使用单一的transformer编码器同时处理文本和图像信息。具体而言无论是文本还是图像都先通过线性层转换为向量序列。例如模型输入包含文本序列“a stone statue near an [MASK]”与对应的图像块其中文本通过词嵌入Word Embedding处理图像则通过展平块的线性投影Linear Projection of Flattened Patches处理。在向量空间中文本向量与图像向量以不同颜色区分并辅以分隔符等特殊标记。经过单一的编码过程该结构能够统一处理不同模态的数据其输出可用于分类或判断任务。例如在判断任务中模型会评估文本描述与图像内容的匹配程度若匹配则输出true反之则输出false。这种架构思想也体现在后续的多模态大模型中如GPT-4o便采用了类似的结构使其不仅能处理文本还能同时理解和处理图像信息并基于此进行问答和内容生成。八、总结至此我们今天关于五篇论文的讲解与讨论已告一段落。简要回顾我们首先从卷积神经网络CNN的基础讲起详细拆解了卷积核这一核心概念并探讨了CNN在各类视觉任务中的应用。随后我们深入分析了ResNet模型它通过引入残差连接有效解决了深层网络中的梯度消失和过拟合问题显著增强了CNN的性能。从Vision TransformerVIT开始研究方向出现了重要分支。尽管CNN仍在广泛应用但学术界逐渐形成了两个流派一派坚持使用CNN另一派则转向完全基于Transformer的架构。目前的趋势显示纯Transformer模型在视觉任务中略占上风但这并不意味着CNN已被淘汰。相比之下RNN几乎已退出历史舞台而CNN依然占据重要地位。ViT和Swin Transformer是纯视觉Transformer的代表它们完全摒弃了CNN转而依赖多头自注意力机制处理图像。这种趋势在CLIP模型中更为显著。CLIP采用了双编码器架构分别基于Transformer和Vision Transformer一个处理文本一个处理图像最终通过比较两者的向量相似度来完成任务。而Vilt模型则走了一条更激进的路线它仅使用单一的Transformer编码器同时处理文本和图像信息。这种架构通过线性层将文本和图像统一映射为向量再利用Transformer的强大建模能力进行融合。这种“单编码器”思想也体现在GPT-4o等多模态大模型中使其能够同时理解和处理文本与图像并基于此进行问答和内容生成。需要指出的是当前的视觉模型尚不具备通用性通常只能胜任特定类别的任务。要实现像GPT那样的通用基座模型视觉领域仍需在架构、算法和算力上取得突破。一旦视觉基座模型出现将极大降低开发成本例如原本需要数百万资金才能完成的视觉任务未来可能只需数万元即可实现从而引发整个行业的颠覆性变革。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

更多文章