LLM 全解析:揭开大模型的“内心世界”,小白程序员必备(收藏版)

张开发
2026/4/12 17:19:05 15 分钟阅读

分享文章

LLM 全解析:揭开大模型的“内心世界”,小白程序员必备(收藏版)
开篇大模型到底是怎么思考的你问 ChatGPT“鲁迅是谁”它回答“鲁迅1881-1936原名周树人是中国现代文学的奠基人…”但问题来了大模型真的知道鲁迅是谁吗还是只是在背答案它是怎么从几千亿参数里找出这个答案的一个精妙的类比想象一个超级图书馆里面有书架相当于模型的参数书的位置相当于参数的数值图书管理员相当于模型的推理过程你问一个问题图书管理员听到问题根据问题去不同的书架找书把找到的信息拼起来组织成语言回答你大模型也是这样把你的问题变成数字词向量用这些数字激活不同的参数层层传递提取信息生成回答但它不是查数据库而是计算出来的。今天我们就来深入大模型的内心世界看看它到底是怎么工作的。一、大模型的大脑结构️ Transformer大模型的基础架构所有大语言模型都基于同一个架构Transformer。2017 年谷歌发表了一篇论文《Attention Is All You Need》提出了 Transformer。从此这个架构统治了 AI 领域。Transformer 的核心思想输入一句话 ↓ 每个词都关注其他词自注意力 ↓ 理解整句话的意思 ↓ 预测下一个词一个精妙的类比想象你在读这句话“小虾今天写了一篇很有趣的文章因为_____”要填空你会怎么做你会关注句子里的其他词小虾→ 谁写的今天→ 什么时候文章→ 什么有趣因为→ 要填原因你不会只盯着空白处而是看整句话。Transformer 也是这样每个词都关注其他词从而理解整句话。 自注意力机制让每个词都眼观六路自注意力Self-Attention是 Transformer 最核心的发明。它解决了什么问题在 Transformer 之前处理句子的方式是从左到右小 → 虾 → 今 → 天 → ...问题读到后面的词时前面的词可能已经忘了。就像你读长句子读到后面忘了前面。自注意力的解决方案句子里的每个词都同时关注其他所有词还是刚才的例子“小虾今天写了一篇很有趣的文章因为_____”对于有趣这个词它关注小虾谁写的它关注今天什么时候它关注文章什么有趣它关注因为要解释原因每个词都有全局视野不是只能看到前面的词。一个更精妙的类比想象一个会议室里面有 10 个人代表 10 个词。传统方法第 1 个人发言第 2 个人听第 1 个人的然后发言第 3 个人听前两个人的然后发言…第 10 个人要记住前 9 个人的话太难了自注意力方法所有人同时发言每个人都能听到其他人的话每个人决定听谁的更多最后综合所有人的意见这就是自注意力每个词都能听到其他词决定关注谁更多。 参数大模型的记忆大模型有几千亿参数这些参数是什么简单说参数就是模型的记忆和知识。一个类比想象一个巨大的调音台上面有几千亿个旋钮。每个旋钮是一个参数旋钮的数值是参数值调音师调整旋钮得到不同的声音大模型也是这样训练前旋钮是随机的模型啥也不会训练时调整旋钮让模型学会语言规律训练后旋钮固定在某个位置模型有知识了你问问题时问题激活了某些旋钮这些旋钮的数值参与计算最终生成回答参数里存了什么不是直接存鲁迅 周树人这样的知识。而是存了语言的规律和模式- 鲁迅经常和周树人一起出现 - 鲁迅经常和文学家一起出现 - 鲁迅经常和1881一起出现 - 鲁迅经常和狂人日记一起出现 ...模型学到的是关联不是事实。所以大模型会幻觉你问鲁迅的《狂人日记》是哪年发表的 模型根据学到的关联计算出一个答案 1918 年对的 但如果你问一个它没学过的 鲁迅的《XXX》是哪年发表的 它也会计算出一个答案可能是错的。这就是为什么大模型会一本正经胡说八道。二、大模型是怎么思考的 前向传播问题→回答的旅程你输入一个问题模型内部发生了什么一个精妙的类比想象一个传话游戏有 100 个人站成一排。第 1 个人听到你的问题 ↓ 告诉第 2 个人 第 2 个人理解一点告诉第 3 个人 ↓ 第 3 个人理解更多告诉第 4 个人 ↓ ... ↓ 第 100 个人完全理解说出答案大模型也是这样输入层把你的问题变成数字 ↓ 第 1 层 Transformer提取浅层信息词义、语法 ↓ 第 2 层 Transformer提取中层信息短语、句法 ↓ 第 3 层 Transformer提取深层信息语义、逻辑 ↓ ... ↓ 第 N 层 Transformer完全理解生成回答 ↓ 输出层把数字变回文字GPT-4 有大约 100 层 Transformer。每一层都在理解你的问题层层抽象。 逐词生成大模型是一次生成一个字一个重要但反直觉的事实大模型不是一次生成整段回答而是一个字一个字生成的。过程你鲁迅是谁 模型 1. 看到鲁迅是谁 2. 预测下一个字鲁概率最高 3. 现在看到鲁迅是谁鲁 4. 预测下一个字迅 5. 现在看到鲁迅是谁鲁迅 6. 预测下一个字 7. 继续... 8. 直到生成。或达到长度限制这意味着模型生成每个字时都能看到前面所有的字包括它自己已经生成的字所以它能连贯地说话一个精妙的类比想象你在写一篇文章。你不是先想好整篇文章然后一口气写完。而是写第一句看看写了什么写第二句基于第一句看看写了什么写第三句基于前两句…大模型也是这样写一个字看看再写下一个字。 随机性为什么每次回答不一样你问同一个问题大模型每次回答可能不一样。为什么因为生成每个字时模型不是选概率最高的而是按概率随机选。例子当前今天天气很 模型预测下一个字 - 好60% - 不错20% - 糟10% - 一般10%如果每次都选好回答稳定但可能单调如果随机选有时选好有时选不错回答更多样但可能不稳定这就是温度Temperature参数温度低如 0.2接近确定性选概率最高的温度高如 1.0更随机更有创造性三、大模型的知识从哪来 训练数据互联网的一切大模型的知识来自训练数据。训练数据包括维基百科所有语言书籍公共版权 授权新闻文章网页内容代码GitHub 等论坛讨论社交媒体…数据量级GPT-345TB 文本GPT-4约 100TB 文本相当于几亿本书或整个互联网的文本部分一个精妙的类比想象一个人从出生开始就一直在读书。每天读 1000 本书读了 10 年读了几百万本书这个人会怎么样他知道很多知识他学会了语言规律他能理解各种话题但他没有亲身经历大模型就是这样读了互联网上所有的文本学会了语言和知识。 训练目标预测下一个字大模型的训练目标非常简单给定前面的字预测下一个字训练过程1. 从训练数据中取一段文本 小虾今天写了一篇很有趣的文章 2. 遮住最后一个字 小虾今天写了一篇很有趣的文___ 3. 让模型预测 模型输出[章 70%, 字 10%, 件 5%, ...] 4. 对比正确答案 正确答案是章 如果模型预测章的概率高损失小 如果预测章的概率低损失大 5. 调整参数让下次预测更准 6. 重复万亿次...就是这么简单但大力出奇迹数据够多模型够大算力够强结果模型学会了语言、知识、推理… 大模型真的理解吗这是一个有争议的问题。观点 1大模型只是鹦鹉学舌- 模型只是学会了字的关联 - 它不知道鲁迅是什么 - 它只是在预测下一个字 - 没有真正的理解观点 2大模型有某种理解- 模型能回答没学过的问题 - 模型能推理、能类比 - 模型能写代码、能解题 - 这不仅仅是背答案一个精妙的类比想象你学外语。一开始你背单词、背句型你不知道为什么这么说你只是鹦鹉学舌后来你学会了语法你能说没背过的句子你能理解没听过的话你理解了这门语言大模型可能也是这样一开始只是背关联但数据够多、模型够大后它涌现出了理解能力四、大模型的超能力涌现能力✨ 什么是涌现能力涌现能力模型大到一定程度后突然具备了训练时没见过的能力。就像单个水分子不湿但很多水分子在一起就湿了单个神经元不会思考但 860 亿个神经元组成了你单个参数没意义但万亿个参数组成了智能大模型的涌现能力GPT-31750 亿参数突然学会了 1. 数学计算 - 训练数据里有数学题 - 但没专门教它计算 - 它自己学会了 2. 翻译 - 训练数据里有多种语言 - 但没专门教它翻译 - 它自己学会了 3. 代码生成 - 训练数据里有代码 - 但没专门教它编程 - 它自己学会了 4. 逻辑推理 - 训练数据里有推理题 - 但没专门教它逻辑 - 它自己学会了这些能力不是教出来的是长出来的。 为什么会有涌现能力科学家还在研究这个问题。一个可能的解释小模型只能学习简单的模式 ↓ 中等模型能学习复杂的模式 ↓ 大模型能学习模式模式元模式 ↓ 超大模型能学习元模式的模式...就像小学生学习知识中学生学习方法大学生学习学习方法的方法研究生学习学习学习方法的方法的方法…模型越大能学习的抽象层次越高。到某个临界点突然就能举一反三了。五、大模型的局限性⚠️ 幻觉一本正经胡说八道问题大模型会生成看起来正确、但实际错误的内容。例子你鲁迅的《狂人日记》是哪年发表的 模型1918 年。对的 你鲁迅的《阿 Q 正传》是哪年发表的 模型1921 年。对的 你鲁迅的《XXX》是哪年发表的 模型19XX 年。可能是编的为什么模型的目标是生成像人说的话不是说真话它不知道我不知道一个精妙的类比想象一个学霸但他有强迫症。你问他问题 - 他知道准确回答 - 他不知道也会编一个答案因为不能不回答大模型就是这样它必须回答即使不知道。 知识截止不知道后来发生的事问题大模型的知识有截止日期。GPT-4 的知识截止2023 年 4 月 你2024 年奥运会在哪举办 模型可能不知道因为训练时还没发生为什么模型只能知道训练数据里的内容训练完成后知识就冻结了除非重新训练或联网搜索解决方案联网搜索让模型能查最新信息定期更新发布新版本 推理能力有限复杂问题会出错问题大模型的推理能力有限。例子你一个池塘里的水草每天翻倍30 天长满池塘问第几天长满一半 模型可能答15 天 ← 错了应该是 29 天 因为每天翻倍所以 - 第 30 天满 - 第 29 天一半 - 第 28 天四分之一为什么模型是预测下一个字不是真正推理复杂问题需要多步推理容易出错解决方案思维链Chain of Thought让模型一步步思考工具使用调用计算器、代码解释器 上下文限制记不住太长的内容问题大模型能记住的内容有限。标准 GPT-48K 或 32K 上下文 GPT-4 Turbo128K 上下文 给模型一本小说20 万字问细节问题可能答不上来为什么注意力计算量是序列长度的平方太长会超出内存限制即使能处理注意力也可能分散一个精妙的类比想象你的短期记忆。你能记住 - 刚才说的话短期记忆 - 但记不住一个月前的细节 大模型也是这样 - 能记住对话的前面部分 - 但太长就记不住了解决方案长上下文模型Kimi 支持 200K检索增强只关注相关部分分层处理先总结再细节六、总结大语言模型全景图现在我们来回顾一下大语言模型到底是怎么回事。架构Transformer自注意力机制核心思想每个词都关注其他词层层传递提取信息逐字生成预测下一个字参数模型的记忆和知识不是存事实是存关联训练时调整训练后固定训练数据互联网文本目标预测下一个字结果学会语言、知识、推理…涌现能力模型大了突然变强数学、翻译、代码、推理不是教的是长的局限性幻觉会编答案知识截止不知道新事推理有限复杂问题会错上下文限制记不住太长 核心要点回顾概念一句话理解生活类比Transformer每个词都关注其他词会议室所有人同时发言自注意力词的全局视野读句子时联系上下文参数模型的记忆调音台的旋钮前向传播问题→回答的旅程100 人传话游戏逐词生成一个字一个字生成写文章时逐句写涌现能力模型大了突然变强量变引起质变幻觉一本正经胡说八道学霸的强迫症上下文模型能记住的长度短期记忆容量普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】

更多文章