从词向量到大模型:NLP 技术是怎么一步步变强的

张开发
2026/4/18 13:41:42 15 分钟阅读

分享文章

从词向量到大模型:NLP 技术是怎么一步步变强的
自然语言处理Natural Language Processing简称 NLP是人工智能里一个特别重要的方向它的发展过程其实就是人们想办法让机器从只会按规则做事慢慢变成能真正理解人类说话意思的过程。这篇文章会带你简单看看NLP 是怎么从最早用“死记硬背”的方式一路走到今天能聊天、写代码、做推理的大模型的。一、深度学习还没流行的时候老方法有哪些问题在2010年代以前大家做 NLP 主要靠人工设计特征加上传统的统计方法比如用 n-gram 模型根据前面几个词来猜下一个词像“我吃__”后面很可能是“饭”或者用隐马尔可夫模型HMM、条件随机场CRF来做词性标注和人名识别这类任务。这些方法虽然在某些场景下还能用但缺点也很明显它们高度依赖人手动提取特征遇到没见过的词或句子就容易出错而且很难抓住一句话里相隔很远的词之间的联系。二、词向量来了让机器开始“感觉”词的意思2013–20141. 独热编码为啥不好用早期的做法是把每个词变成一个超长的向量里面只有一个位置是1其他全是0比如“猫”可能是 [1, 0, 0, ..., 0]“狗”是 [0, 1, 0, ..., 0]。这种表示不仅计算起来特别慢还完全看不出“猫”和“狗”其实都是动物、意思比较接近。2. Word2Vec 和 GloVe 带来的改变2013年Google 提出了 Word2Vec通过 CBOW 和 Skip-gram 这两种方法把每个词变成一个短而密的向量第一次让模型能算出“国王 - 男人 女人 ≈ 女王”这样的关系。到了2014年斯坦福大学又推出了 GloVe它不光看局部上下文还用了整个语料库里所有词一起出现的统计信息效果比 Word2Vec 更好。这些词向量让机器第一次有了对词语含义的“直觉”也让文本分类、情感分析这些下游任务的效果一下子提升了很多。三、序列模型和注意力机制登场2014–2017随着深度学习火起来NLP 开始用端到端的方式直接训练模型。比如 RNN、LSTM、GRU 这些结构可以处理长短不一的句子适合做机器翻译或者语音转文字2014年提出的 Seq2Seq 框架用一个编码器读完整句话再用一个解码器生成答案成了当时生成类任务的标准做法而2015年引入的注意力机制则让模型在翻译时能自动聚焦到输入句子中最相关的部分大大提高了准确率。不过这些模型还是很难处理特别长的句子训练速度也慢。四、Transformer 出现预训练模型爆发2017–20191. Transformer 彻底改变了游戏规则2017年Google 在《Attention is All You Need》这篇论文里提出了 Transformer它完全不用循环结构只靠自注意力机制就能并行训练不仅快效果还更好很快就成了新标准。2. 预训练微调成了主流紧接着ELMo2018让同一个词在不同句子里有不同的表示GPT2018用 Transformer 解码器做生成式预训练BERT2018则能同时看一个词前后的上下文在很多公开测试上都打破了纪录。从此以后大家不再为每个小任务单独训练模型而是先在一个超大的文本库上预训练一个通用模型再用少量数据微调一下就能用省时间又省资源。五、大模型时代正式开启2020年到现在2020年 GPT-3 的发布是个重要转折点它的参数量达到了上千亿不仅能完成零样本或少样本的学习还能写文章、写程序、回答复杂问题。之后 ChatGPT、Claude、Gemini、通义千问等模型接连推出NLP 不再只是后台工具而是变成了能和人对话、帮人干活的智能助手。六、接下来还会面对哪些难题虽然现在的大模型能力很强但问题也不少比如它的决策过程像黑盒子人很难搞懂它为什么这么回答训练一次花的钱和电都非常多模型还可能把训练数据里的偏见学过来另外未来的发展方向很可能是把文字、图片、声音这些不同类型的信息一起学做成真正的多模态智能体。结语从 Word2Vec 到 ChatGPTNLP 的进步不只是算法变复杂了更是我们对语言本身理解得更深了。随着硬件越来越强、数据越来越多、方法越来越聪明让机器真正“听懂人话”这件事已经离我们越来越近了。

更多文章