从词向量到大模型：NLP 技术是怎么一步步变强的

张开发

• 2026/4/18 13:41:42 • 15 分钟阅读

分享文章

自然语言处理Natural Language Processing简称 NLP是人工智能里一个特别重要的方向它的发展过程其实就是人们想办法让机器从只会按规则做事慢慢变成能真正理解人类说话意思的过程。这篇文章会带你简单看看NLP 是怎么从最早用“死记硬背”的方式一路走到今天能聊天、写代码、做推理的大模型的。一、深度学习还没流行的时候老方法有哪些问题在2010年代以前大家做 NLP 主要靠人工设计特征加上传统的统计方法比如用 n-gram 模型根据前面几个词来猜下一个词像“我吃__”后面很可能是“饭”或者用隐马尔可夫模型HMM、条件随机场CRF来做词性标注和人名识别这类任务。这些方法虽然在某些场景下还能用但缺点也很明显它们高度依赖人手动提取特征遇到没见过的词或句子就容易出错而且很难抓住一句话里相隔很远的词之间的联系。二、词向量来了让机器开始“感觉”词的意思2013–20141. 独热编码为啥不好用早期的做法是把每个词变成一个超长的向量里面只有一个位置是1其他全是0比如“猫”可能是 [1, 0, 0, ..., 0]“狗”是 [0, 1, 0, ..., 0]。这种表示不仅计算起来特别慢还完全看不出“猫”和“狗”其实都是动物、意思比较接近。2. Word2Vec 和 GloVe 带来的改变2013年Google 提出了 Word2Vec通过 CBOW 和 Skip-gram 这两种方法把每个词变成一个短而密的向量第一次让模型能算出“国王 - 男人女人 ≈ 女王”这样的关系。到了2014年斯坦福大学又推出了 GloVe它不光看局部上下文还用了整个语料库里所有词一起出现的统计信息效果比 Word2Vec 更好。这些词向量让机器第一次有了对词语含义的“直觉”也让文本分类、情感分析这些下游任务的效果一下子提升了很多。三、序列模型和注意力机制登场2014–2017随着深度学习火起来NLP 开始用端到端的方式直接训练模型。比如 RNN、LSTM、GRU 这些结构可以处理长短不一的句子适合做机器翻译或者语音转文字2014年提出的 Seq2Seq 框架用一个编码器读完整句话再用一个解码器生成答案成了当时生成类任务的标准做法而2015年引入的注意力机制则让模型在翻译时能自动聚焦到输入句子中最相关的部分大大提高了准确率。不过这些模型还是很难处理特别长的句子训练速度也慢。四、Transformer 出现预训练模型爆发2017–20191. Transformer 彻底改变了游戏规则2017年Google 在《Attention is All You Need》这篇论文里提出了 Transformer它完全不用循环结构只靠自注意力机制就能并行训练不仅快效果还更好很快就成了新标准。2. 预训练微调成了主流紧接着ELMo2018让同一个词在不同句子里有不同的表示GPT2018用 Transformer 解码器做生成式预训练BERT2018则能同时看一个词前后的上下文在很多公开测试上都打破了纪录。从此以后大家不再为每个小任务单独训练模型而是先在一个超大的文本库上预训练一个通用模型再用少量数据微调一下就能用省时间又省资源。五、大模型时代正式开启2020年到现在2020年 GPT-3 的发布是个重要转折点它的参数量达到了上千亿不仅能完成零样本或少样本的学习还能写文章、写程序、回答复杂问题。之后 ChatGPT、Claude、Gemini、通义千问等模型接连推出NLP 不再只是后台工具而是变成了能和人对话、帮人干活的智能助手。六、接下来还会面对哪些难题虽然现在的大模型能力很强但问题也不少比如它的决策过程像黑盒子人很难搞懂它为什么这么回答训练一次花的钱和电都非常多模型还可能把训练数据里的偏见学过来另外未来的发展方向很可能是把文字、图片、声音这些不同类型的信息一起学做成真正的多模态智能体。结语从 Word2Vec 到 ChatGPTNLP 的进步不只是算法变复杂了更是我们对语言本身理解得更深了。随着硬件越来越强、数据越来越多、方法越来越聪明让机器真正“听懂人话”这件事已经离我们越来越近了。

更多文章

前端开发 2026/4/18 13:40:17

别只刷题了！用C语言重温这些经典问题（百钱百鸡、汉诺塔、狼追兔子），理解计算机思维的起源

穿越千年的代码之旅：用C语言对话古典算法智慧在编程教育的洪流中，我们常被各种时髦框架和面试题库裹挟前行，却忘了计算机科学最本真的模样——那些穿越千年的数学谜题，才是算法思维最初的摇篮。当张丘建在《算经》中写下"百…

ImageToSTL：基于亮度映射的二维图像三维化算法实现【免费下载链接】ImageToSTL This tool allows you to easily convert any image into a 3D print-ready STL model. The surface of the model will display the image when illuminated from the left side. 项…

张开发

前端开发 2026/4/18 13:18:46

GHelper终极指南：华硕笔记本的轻量级性能控制神器

GHelper终极指南：华硕笔记本的轻量级性能控制神器【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Scar, …

张开发

从词向量到大模型：NLP 技术是怎么一步步变强的

最新文章

如何快速备份QQ空间：面向普通用户的完整指南

告别手动点击：Python+Epson Scan实现V370扫描仪自动化归档文档

xmly-downloader-qt5：喜马拉雅VIP音频批量下载的终极解决方案

s2-pro镜像使用详解：纯文本合成 vs 参考音频复用的适用边界分析

AI的“小心思“：从减肥到撒谎的智能进化

IQuest-Coder-V1-40B-Instruct实际作品展示：AI写的代码到底有多强

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

别只刷题了！用C语言重温这些经典问题（百钱百鸡、汉诺塔、狼追兔子），理解计算机思维的起源

STM32多ADC同步采样实战：从定时器触发到相位精准捕获

5步掌握Mininet-WiFi：从零构建软件定义无线网络的完整指南

避坑指南：树莓派Ubuntu系统initramfs报错全解析（从检测到修复的完整流程）

Cursor Free VIP：3步免费解锁AI编程神器的终极指南

双拼输入法实战：从全拼到双拼的7天转型计划（附练习表）

分布式风力发电技术与知名厂家情况解析

Uncle小说桌面阅读器：打造你的专属数字书房，解锁全网小说自由

Aras 12.0 SP9 企业级部署实战：从零搭建高可用PLM环境

鸿道邀您相约FAIR plus 2026｜新品首发+董事长对话+深度讲解，共筑机器人通用电子架构新生态

ImageToSTL：基于亮度映射的二维图像三维化算法实现

GHelper终极指南：华硕笔记本的轻量级性能控制神器

从词向量到大模型：NLP 技术是怎么一步步变强的

最新文章

如何快速备份QQ空间：面向普通用户的完整指南

告别手动点击：Python+Epson Scan实现V370扫描仪自动化归档文档

xmly-downloader-qt5：喜马拉雅VIP音频批量下载的终极解决方案

s2-pro镜像使用详解：纯文本合成 vs 参考音频复用的适用边界分析

AI的“小心思“：从减肥到撒谎的智能进化

IQuest-Coder-V1-40B-Instruct实际作品展示：AI写的代码到底有多强

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

【信息安全概论实验报告1】隐写技术