大模型如何“思考”:一文读懂从输入到输出的完整逻辑,小白也能学会收藏!

张开发
2026/4/14 0:12:19 15 分钟阅读

分享文章

大模型如何“思考”:一文读懂从输入到输出的完整逻辑,小白也能学会收藏!
本文用通俗易懂的方式解析了AI大语言模型的工作原理从输入文本的矩阵化处理到Transformer架构与自注意力机制如何理解上下文再到输出文本的生成过程最后探讨了位置编码、长文本外推等关键技术。文章强调了大模型参数量和训练量的影响并提出了实际应用中优化上下文长度、提高系统稳定性的方法适合对AI大模型感兴趣的程序员和小白学习参考。1、输入从用户提问到模型看得懂的矩阵1.1 输入实际是文本首先我们要明白给大语言模型输入的其实是一整段组合文本我们一般把它叫做上下文。它主要包含这几部分系统提示词就像“你是个智能助手回答时要可爱些”这类设定可用工具列表的说明对应的就是模型的Function Call能力历史对话也就是之前的问题和回答内容还有用户最新提出的问题。下面是目前大家普遍认可的OpenAI API协议输入示例这些内容会合并在一起作为大模型一次调用的完整输入。这里省略了部分工具相关的描述信息只是方便大家理解。messages [ {role: system, content: 你是个智能助手回答时要可爱些}, // 系统提示词 {role: user, content: 你好}, // 历史提问 {role: assistant, content: 你好有什么能帮到你呀}, // 历史回答 {role: user, content: 查询下今日天气}, // 最新提问 ] tools [{type:function,function:{name:get_weather,description:Get current weather information}}]重点提醒一下这里要理解清楚我们输入的其实就是一段普通文本而且每次调用大模型都是相互独立的。之所以能实现跟你聊天互动是因为工程层面在每次调用时都把之前的对话内容一起传进去了。所以一轮对话下来每次调用时拼接好的输入文本也就是上下文会越来越长这个点非常关键。1.2 文本如何变成数字分词与嵌入我们已经搞懂了输入文本那这些文字到底是怎么变成大模型计算要用的矩阵呢这里要先说明大模型本质就是做大量数学运算最核心的就是矩阵乘法。整个过程主要分两步分词和嵌入。分词可以理解成把一段文字“切碎”拆成更小的单元我们叫它token。举个例子中文里“北京”大概率是一个token“的”也是一个token英文里像unhappy这样的单词可能会拆成un和happy两个token。标点符号、数字也都会单独当成一个token来处理。这里要注意一点不同大模型的分词规则是不一样的。有的模型差不多一个汉字对应一个token有的可能两个汉字才占一个token。分词结束后每一个token都会通过模型提前训练好的词汇表对应成一个数字ID可以简单理解成这个token在词表里的编号。一般大模型的词表都很大有几万甚至几十万个token。接下来就是嵌入这一步会更精巧一些。模型会用一个可以学习的嵌入矩阵把每个token对应的数字ID转成固定长度的向量。比如ID是100的token可能会变成一个512维的向量像[0.1, -0.3, …, 0.8]这样。这些向量不只是简单的数字还包含了词语的意思能在数学空间里表示词和词之间的关系。比如“猫”和“狗”的向量在这个512维的空间里就会离得更近相似度更高。这样一来一段输入文本先被转成n个token再经过嵌入变成n个512维的向量把它们组合在一起就是一个n×512的输入矩阵直接可以给模型计算用了。重点再强调一下文字在进入模型计算前都会先转成token序列这里的token数量n就相当于这段文本里“词”的数量这个n也就是模型最终的输入上下文长度。1.3 上下文长度的限制需要注意的是目前所有大模型对上下文长度都有严格限制如果你输入的上下文长度超出了限制模型会直接报错这一点在DeepSeek V3的开源代码里就是这么实现的。不过在实际工程使用中一般会做这样的处理当累计的内容超过上下文窗口大小时系统会自动把最早的内容丢掉只保留最新的部分保证总长度不超出模型能处理的范围。重点提醒大家上下文长度是有限的不能无限制往上加。而且这里还有一个很关键的点上下文长度限制是**包含模型输出长度**的。举个例子以DeepSeek-Chat默认设置为例理论上最大的输入上下文长度就是 128k - 4k 124k具体原因后面会详细说明。经过这一系列严谨的转换过程人类的自然语言最终会变成模型可以进行数学运算的矩阵形式这也为模型后续的理解和文本生成打下了基础。2、Transformer架构与自注意力机制模型如何“理解”上下文现在我们已经拿到了带词义信息的输入矩阵接下来就要进入大模型最核心的计算部分——Transformer架构。这个架构最关键的地方就是自注意力机制有了它模型才能真正看懂文本里不同词语之间复杂的关联。2.1 自注意力模型如何“聚焦”重要信息咱们可以这么想你读一段话的时候大脑会下意识地去关注那些和你当下理解最相关的词自注意力机制说白了就是让模型也拥有这种能力。具体做的时候每个自注意力模块里都有三个不一样的权重矩阵Wq、Wk、Wv这三个矩阵里的值都是经过大量训练才得出来的。Q、K、V矩阵信息的三种角色 每个输入的token分别和上面说的三个不同权重矩阵相乘就能生成三个新的矩阵。其中QueryQ矩阵就相当于“我想找什么信息”作用是主动去问其他的tokenKeyK矩阵可以理解成“这个token有什么信息”用来回应其他token的询问ValueV矩阵就是这个token里面实际包含的内容有多少。这三个矩阵其实就对应着信息交流时的三个角色Q是主动提问的人K是回答问题的人V是真正要传递的内容。有了这三个矩阵之后下一步就是给每个token计算它和之前所有token的关联情况。计算注意力分数用当前这个token的Query和之前所有token的Key做内积算出来的结果就是注意力分数。这个分数其实就是当前token和之前那些token在这个注意力模块里的关联紧密程度——分数越高就说明这部分信息越重要。生成加权平均输出最后一步就用刚才算出来的注意力分数当权重分别和之前所有token的Value相乘再把所有结果加起来就能得到最终的注意力信息这里说明一下实际计算比这复杂咱们就不往深了说。简单理解的话这就是一个融合了之前所有序列上下文信息的新向量。做完上面这些计算每个token和上下文的关联信息就都出来了。这个过程能保证模型给出的回复是基于整个上下文来的不是只看最新的那个问题孤立地去生成答案。敲黑板说白了自注意力机制就是给每个token和它之前所有的token通过计算找到它们的相关信息。大家要重点弄明白的是最后一个token的注意力信息里面包含了整个上下文的所有信息。2.2 多头注意力多角度理解文本只靠单一的注意力机制往往没法把信息理解得很全面所以Transformer里用到了多头注意力的设计。简单来说它是由多个结构一样、但权重矩阵不一样的自注意力模块组合而成这些模块可以同时并行计算最后再把结果整合起来。不同的注意力头就像不同的专家各自会关注文本里不一样的细节。所有注意力头算出来的结果先拼接到一起再经过一层线性变换融合成最终的输出。这样的设计能让模型同时从多个角度去理解文本整体的表达能力也得到了明显提升。2.3 前馈网络层前面我们说过Transformer架构的核心是自注意力模块但它的内容远不止这些。一个完整的Transformer层主要由多头自注意力层和前馈网络层组成还有一些更细节的技术模块这里就不展开讲了不影响大家理解。如果把自注意力机制的作用看作是聚合信息——把序列里各个位置的信息通过注意力权重整合到一起那前馈网络层的作用就是对这些整合好的信息进行加工和提炼。我们可以用大家理解事情的过程来打个比方自注意力层就好比你听完了一场讨论知道了每个人的观点也弄明白这些观点之间的关系。前馈网络层就像是你回到自己的地方独自把刚才听到的内容慢慢消化、深入思考最后形成更深刻、更抽象的理解。这样一来一个Transformer层的结构就可以简单用下面这张图来表示重点再跟大家说一下其实可以这么理解注意力机制是让模型学会利用上下文、关联上下文信息而前馈网络层则是让模型对特征做进一步的提取和转换。2.4 大模型之“大”大家都在说大模型、大模型可这模型到底“大”在哪儿呢其实主要看两个方面——参数量和训练量。先说说参数量这可是判断模型复杂程度的关键。咱们常说的Transformer架构大模型参数量一般都能达到几百亿甚至上千亿。可能有人会问这么多参数到底藏在模型的哪个地方之前跟大家提过Transformer层里包含多头注意力层和前馈网络层咱们平时用的大模型都会对这两部分做优化调整而且还会通过堆叠Transformer层让模型的表现更出色。就拿DeepSeek V3来说吧它的注意力层是潜在多头注意力层也就是MLA这个主要是为了减少缓存的使用这里就不详细展开说了。它的头数有128个这就意味着对应有128个自注意力模块。再看前馈网络层里面包含257个专家其中有1个共享专家还有256个可选专家大家可以简单理解成这257个前馈网络层是并行工作的和多头注意力的原理有点像不一样的地方是这些专家是可以选择使用的不是全部都用。像这样的Transformer层DeepSeek V3里有58层另外还有3层没有专家的Transformer层加起来一共是61层。这里要重点说一下参数量主要就来自这些专家。DeepSeek V3一共有14906个专家每个专家的参数有7168×2048×3 44,040,192个算下来光是专家的参数量就有6564.6亿个再加上其他部分的参数总共就是6710亿个。不过大家也不用觉得这么多参数会很笨重因为DeepSeek的专家是可选的每次计算的时候只会从256个可选专家里选8个来用所以实际计算时用到的参数大概只有370亿个。说完参数量再说说训练量。大模型有这么多参数每个参数的具体数值都不是一开始就定好的而是通过一次又一次的训练慢慢调整出来的这就对训练数据的量有了极高的要求。还是以DeepSeek V3为例它在预训练阶段就用了14.8万亿token的数据集来训练。这里要跟大家说清楚大模型训练的时候每一条数据都不会只用来训练一次而是会反复训练好几次这样才能让模型更精准。3、输出从logits到人类语言的“翻译”前面两章我们已经讲过模型是怎么把用户的问题转成矩阵输入又是怎么通过自注意力机制理解上下文之间关系的。到这一步模型已经拿到了一个带有丰富语义信息的隐藏状态矩阵也就是我们前面提到的输出矩阵可以把它理解成经过多层Transformer处理后模型在每个token位置都生成了一个包含全部上下文信息的高维向量。接下来就要做最关键的一步把这些抽象的高维向量重新翻译成人类能看懂、能听懂的自然语言。3.1 线性层从隐藏状态到词汇表映射隐藏状态矩阵里的每一个向量都把对应token的上下文信息给浓缩进去了但这些向量还只是模型内部用的“专属语言”。要是想让模型输出我们能看懂的文字就得靠线性层把这些内部向量转换成词汇表能识别的形式。线性层就相当于一个“翻译官”它能把每个token对应的高维向量转换成一个长度和词汇表大小一样的新向量。比如说要是词汇表里有5万个词那线性层输出的就是一个5万维的向量每一个维度都对应着词汇表里某个词的可能性得分。因为我们输入的是n个token所以这里会得到n个向量分别对应每个位置下一个词的得分向量最后输出的时候我们只用最后一个就行。3.2 Softmax将得分转换为概率分布线性层输出的向量里装的都是原始得分也就是我们常说的logits。每个logits数组大概长这样[2.1, -0.3, 1.8, …, 0.02]里面的每一个数值都代表着对应词汇被选中的“倾向程度”。但这些logits没法直接用来选输出的词因为它们的数值范围没个准头而且所有数值加起来也不等于1。这时候就该Softmax函数出场了Softmax的核心作用就是把这些logits转换成标准的概率分布——把所有logits的值都映射到0到1之间保证所有概率加起来刚好等于1同时还能保住数值之间的相对大小也就是说原来得分高的词转换后概率还是高。经过Softmax处理后原来的logits数组就变成了类似[0.15, 0.02, 0.25, …, 0.001]的概率分布每一个数值都明明白白地表示对应词汇被选中的概率有多大。到这一步大模型终于能输出一个词了具体输出哪个一般是根据这个概率分布随机抽的每个位置的数值就对应着词表里那个位置的词被抽中的概率。这里要注意通常情况下这个概率分布会比较集中就是某一个或某几个词的概率特别大其他词的概率都很小。3.3 自回归生成逐词构建完整回答看完上面这么复杂的计算大家可能会发现大模型这会儿只输出了一个词那完整的回答里后面的词是怎么来的呢其实大模型生成文本的过程是自回归式的简单说就是它不是一次性把整个回答都生出来而是像我们人思考、说话一样一个词一个词慢慢凑出来的初始预测的时候它会根据我们输入的完整上下文算出第一个词的概率分布也就是上面说的那一系列操作然后根据这个概率分布选一个词可能是概率最高的也可能是概率不太高的接着把已经生成的这个词加到原来的输入里再去预测下一个词就这么一直重复直到生成完整的回答或者达到设定的长度限制。这种“滚雪球”一样的生成方式能保证回答的前后文连贯每一个新词的产生都是基于之前所有已经生成的内容。这里重点说一下大模型经过Transformer层提取的特征经过上面一系列计算后最终输出的是词表里每个词的概率分布然后根据这个概率抽取出要输出的词。之后再把这个生成的词加到输入里重复上面的流程接着预测下一个词整体就是一个token一个token地输出。这也是为什么上下文限制里会包含输出长度的原因。3.4 生成策略如何从概率中选择词汇针对这个概率分布模型有好几种选择策略一般都是按照概率分布来抽取。比如在需要创造性的场景里每次输出的结果不一样这对写诗词之类的需求就很有用。但有些场景下我们希望模型输出的结果更靠谱、更稳定这时候有什么办法呢目前来说模型一般会提供两个参数让用户自己调整我们平时用的元宝等平台也都会开放这两个参数给大家修改。就是temperature温度和top-p也叫核采样这两个参数配合着用能决定模型在“想象力”和“可靠性”之间的平衡。其中temperature是用来调整模型原始输出的概率分布也就是logits的“尖锐”或“平滑”程度的通过改变概率分布的形状来控制输出的随机性。简单理解就是当这个值小于1的时候原来概率高的词调整后概率会更高也就更容易被选中如果这个值等于0就只会选择概率最高的那个词。而top-p就像一个动态的候选词筛选器它会从概率最高的词开始累加只从那些累积概率达到阈值p的最小候选词集合里抽样说白了就是抽词的时候只从概率比较高的前几个词里选。实际用的时候大家可以根据自己的使用场景调整这两个参数达到自己想要的效果这里就不展开细说了。注这里在DeepSeek V3的代码中只看到了temperature参数的支持。4、位置编码和长文本外推讲到这里大家基本已经能看懂大模型从输入到输出大概是怎么一回事了。不过前面我故意跳过了一个关键细节想了很久还是决定单独拿出来讲——因为它真的太重要了4.1 位置编码我们前面说过Transformer 最核心的就是自注意力机制通过计算每个 token 和其他 token 的关联程度来提取有用信息。核心计算就是 token 之间的矩阵运算但这种算法有个问题会丢掉位置信息。要知道“我咬狗”和“狗咬我”字完全一样但意思天差地别。所以就有了位置编码把位置信息塞进输入矩阵里主要分两种绝对位置编码和相对位置编码。绝对位置编码给每个位置一个“专属身份证”这是 Transformer 原版的做法。核心就是把位置信息编码进每个 token 的输入向量里。缺点也很明显一旦输入长度超过模型训练时的长度模型没见过这些位置编码效果会直接崩。相对位置编码不关心绝对位置只关心两个词之间的相对距离。在算注意力分数的时候把相对距离信息加进去。现在业界主流用的是 RoPE旋转位置编码我就重点讲这个。它的核心思路是把每个 token 的位置转成高维空间里的一个角度。每个位置对应一个旋转角度算注意力的时候把 query 和 key 按角度旋转一下最后算出来的注意力分数就和它们之间的相对距离挂钩了。具体数学原理我就不展开了不搞底层研发不用死磕。你只要记住一点RoPE 在设计上自带远程衰减的特点——两个 token 离得越远注意力分数越低模型天然就更关注近处的信息。对比一下就很清楚相对编码里模型学的是相对位置关系。就算输入长度超过训练长度模型也能复用之前学到的规律效果更稳。敲黑板核心就是用巧妙的数学编码把相对位置信息融入自注意力计算。关键细节距离越远的 token注意力分数会自动变低。4.2 长文本外推就算相对编码比绝对编码更适合长文本它能学到的相对距离也是有限的。输入太长效果照样会掉这时候就需要外推策略。为了让模型在长文本下也能保持不错的效果研究者们搞出了不少方案简单说两类一类是基于插值。思路很直白比如模型只训练过 0–4k 的距离实际用的时候把 0–32k 压缩到 0–4k 里让模型更“眼熟”。这种方法不够灵活目前业界更好的方案是 YaRN可以理解成对不同长度做不同的插值。另一类是基于选择策略。超长文本里不再让每个词都去算全局所有 token 的注意力不然耗时会爆炸。典型做法就是滑动窗口每个词只关心固定窗口内的相邻词。也有从全局里挑一部分区间来算的。这类方案是有损的但会通过设计把影响降到最低。4.3 长文本训练你可能会疑惑模型既然学会了相对距离理论上更长的距离也应该能用啊答案还是回到我们前面说的大模型的效果全看训练量。在 4k 长度上训出来的模型就算懂了相对位置真放到 32k 甚至更长的场景里表现照样会变差——因为没练过。可以打个比方你在人机模式练了很久技能、对线都学会了结果让你去打真人高玩英雄技能没变但就是打不过。那为啥不直接用长文本训到底主要两个原因成本直接爆炸自注意力的计算量是和上下文长度的平方成正比的。文本越长算得越慢、耗资源越多。大批量训练下长文本训练的时间和成本高到吓人。长文本数据又少又难搞就算互联网内容这么多真正适合训练的长文本依然很少大部分都是短文本。高质量、可训练的长文本就更稀缺了。所以现在业界主流方案是短文本预训练 长文本微调。阶段一基础预训练在大量高质量短文本比如 2k、4k、8k上训练让模型学会语言、常识、推理。成本可控效果最稳。阶段二长度扩展微调用上外推技术再用少量长文本数据微调。比如 DeepSeek V3就是先扩到 32k再扩到 128k。为什么这套思路有效因为第一阶段模型已经学会了“怎么思考”。第二阶段只是教它“怎么在更长的上下文里继续思考”。比从头训高效太多了。顺带一提大模型发展特别快现在已经有模型支持 1M 上下文长度了。敲黑板想让模型支持长文本主流还是先大量短文本预训练再少量长文本微调。重点是不管做多少优化长文本的训练数据稀缺 外推方案本身有损都注定了模型在长文本下的表现一定不如短文本稳定。5、 实践与思考到这里大模型的基本原理和细节你都差不多懂了。那这些东西对我们实际用模型、做工程到底有啥用5.1 多模态输入的实现原理比如 DeepSeek V3本身输入是文本。你看到它能识图大概率是工程上先做图像识别转成文本再和问题一起喂给模型。按理说图像识别已经很成熟了准确率应该很高才对。但我实际测下来结果还是会出错。从思考过程也能看出来模型确实会多带一段文本输入大概 23 个 token 左右。我也测了混元它是正经多模态大模型支持直接输图片。简单理解就是用编码器把图片转成类似 token 的向量再丢进 Transformer。但实测结果照样不准从思考过程里也很难看出来它是真用了图片特征还是在瞎编。毕竟大模型是一个词一个词按概率生成的系统提示词没卡死规则就很容易“一本正经胡说八道”。想跟大家说的是像 DeepSeek 这类大模型主体还是文本输入。非文本的需求大多是靠工程方案“外挂”实现的。5.2 用限制上下文来提高系统稳定性我们知道模型大多是在短文本常见 4k上狂训的。理论上这个长度内模型效果最稳、最靠谱。所以工程实践里能不用长上下文就别用。比如做 Agent关键就是 prompt系统提示和工具列表描述。这两块内容千万别堆太多——规则太多、工具太杂模型反而会乱最后输出格式不对解析失败。这只是不稳定的一种表现有时候还会出现循环输出。看完前面的原理你就懂了本质就是输出靠概率预测天然就有不确定性。5.3 耗时影响一次调用要花多久第一个 token 输出最慢必须把所有输入上下文算完才出得来耗时和上下文长度平方成正比越长越慢。后面的 token 会快一点因为可以用缓存但每个新 token 还是要和上下文全部算一遍。总耗时基本就看输入长度 输出字数。想降低耗时很简单尽量缩短上下文长度用 prompt 或接口参数限制输出长度别让模型啰嗦5.4 怎么有效减少上下文实际用的时候你可能有一堆要求必须加很多规则模型又不听话怎么办答案很现实拆。用多 Agent 协同把功能拆开一个主 Agent 负责统筹几个子 Agent 各管一块能力。主 Agent 只需要知道每个子 Agent 能干嘛不用知道里面的具体 prompt上下文一下子就压下来了耗时也会明显降低。用户一问主 Agent 拆成任务分给子 Agent 跑就行。子 Agent 功能单一上下文也不会长。虽然调用次数变多了但因为上下文变短整体耗时反而更优。举个简单例子原来 12k 上下文12² 144拆成 4 个 3k4 × 3² 36差距非常明显。5.5 历史对话历史对话太多上下文也会越来越膨胀。但很多时候用户的新问题根本不需要历史信息或者有用信息极少只是懒得清上下文。工程上可以这么优化把历史对话存起来用户提问时先检索有没有相关记录只把有用的那段历史附进去而不是全量带上。那么如何学习大模型 AI 对于刚入门大模型的小白或是想转型/进阶的程序员来说最头疼的就是找不到系统、全面的学习资源要么零散不成体系要么收费高昂白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包覆盖从入门到实战、从理论到面试的全流程所有资料均已整理完毕免费分享给各位核心包含AI大模型全套系统化学习路线图小白可直接照做、精品学习书籍电子文档、干货视频教程、可直接上手的实战项目源码、2026大厂面试真题题库一站式解决你的学习痛点不用再到处搜集拼凑扫码免费领取全部内容1、大模型系统化学习路线学习大模型方向比努力更重要很多小白入门就陷入“盲目看视频、乱刷资料”的误区最后越学越懵。这里给大家整理的这份学习路线是结合2026年大模型行业趋势和新手学习规律设计的最科学、最系统从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶。2、大模型学习书籍文档理论是实战的根基尤其是对于程序员来说想要真正吃透大模型原理离不开优质的书籍和文档支撑。本次整理的书籍和电子文档均由大模型领域顶尖专家、大厂技术大咖撰写涵盖基础入门、核心原理、进阶技巧等内容语言通俗易懂既有理论深度又贴合实战场景小白能看懂程序员能进阶为后续实战和面试打下坚实基础。3、AI大模型最新行业报告无论是小白了解行业、规划学习方向还是程序员转型、拓展业务边界都需要紧跟行业趋势。本次整理的2026最新大模型行业报告针对互联网、金融、医疗、工业等多个主流行业系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会帮你清晰了解哪些行业更适合大模型落地哪些技术方向值得重点深耕避免盲目学习精准对接行业需求。值得一提的是报告还包含了多模态、AI Agent等前沿方向的发展分析助力大家把握技术风口。4、大模型项目实战配套源码对于程序员和想落地能力的小白来说“光说不练假把式”只有动手实战才能真正巩固所学知识将理论转化为实际能力。本次整理的实战项目涵盖基础应用、进阶开发、多场景落地等类型每个项目都附带完整源码和详细教程从简单的ChatPDF搭建到复杂的RAG系统开发、大模型部署难度由浅入深小白可逐步上手程序员可直接参考优化既能练手提升技术又能丰富简历为求职和职业发展加分。5、大模型大厂面试真题2026年大模型面试已从单纯考察原理转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。为此我精心整理了各大厂最新大模型面试真题题库涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点不仅有真题还附带详细解题思路和行业踩坑经验帮你精准把握面试重点提前做好准备面试时从容应对、游刃有余。6、四阶段精细化学习规划附时间节点可直接照做结合上述资源给大家整理了一份可直接落地的四阶段学习规划总时长约2个月小白可循序渐进程序员可根据自身基础调整节奏高效掌握大模型核心能力快速实现从“入门”到“能落地、能面试”的跨越。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章