[具身智能-310]:大模型的神经网络的输入是词向量序列,还是Token序列?

张开发
2026/4/9 13:24:55 15 分钟阅读

分享文章

[具身智能-310]:大模型的神经网络的输入是词向量序列,还是Token序列?
这是一个非常精准的技术问题。要准确回答这个问题我们需要区分“数据形式”和“计算实体”。简单来说进入神经网络第一层进行数学计算的绝对是“词向量序列”但承载这些向量的“容器”和顺序是由“Token序列”决定的。为了让你彻底明白这个过程我们可以把大模型的输入过程看作一个“三级火箭”发射流程 第一级Token 序列物理形态“把文本切碎”当你把一句话例如“你好世界”输入给大模型时最先发生的是分词Tokenization。此时文本被切成了[你, 好, , 世界]。这就是Token 序列。本质这目前还只是文本的碎片或者说是模型能识别的“单词ID列表”例如[102, 567, 8, 998]。计算机此时还不能直接对这些 ID 进行深度的语义计算因为它们只是整数编号。 第二级词向量序列数学形态“把ID变成坐标”这是关键的一步。神经网络无法直接理解“102”这个编号代表什么意思。于是模型会调用内部的嵌入层Embedding Layer。嵌入层就像一个巨大的查找表。模型拿着 Token ID102去表里查出一串长长的数字数组向量比如[0.12, -0.55, 0.99, ...]。这个向量数组就是词向量。本质词向量是 Token 在数学空间中的“全息投影”它包含了语义信息。 第三级神经网络的真正输入“开始计算”现在我们回答你的核心问题神经网络的输入到底是什么答案是词向量序列。原因Transformer 架构大模型的核心的核心运算是矩阵乘法和自注意力机制。这些数学运算要求输入必须是连续的浮点数向量而不能是离散的整数Token ID。过程Token 序列提供了索引告诉模型去哪里找数据。词向量序列提供了数据本身实际参与计算的数值。 一个形象的比喻为了方便记忆你可以这样理解Token 序列就像是“菜单上的菜名”如宫保鸡丁、麻婆豆腐。词向量序列就像是“端上桌的 actual 菜肴”色、香、味俱全的实体。神经网络就像是“食客”。食客神经网络吃的是菜肴词向量而不是菜单上的字Token。但是食客必须先通过菜单Token来点菜厨房才会把对应的菜词向量端上来。 总结Token 序列是输入的形式它决定了序列的长度比如有5个Token就要计算5次。词向量序列是输入的内容它是神经网络实际进行矩阵运算的数据实体。所以严谨的说法是大模型接收 Token 序列作为索引将其转化为词向量序列然后输入到神经网络中进行计算。

更多文章