[智能体-272]：词向量 vs 文本向量对比详解

张

张建站

2026/6/5 15:04:48

10分钟阅读

一、核心定义词向量Word Vector单个词语映射为固定长度数字向量Word2Vec、GloVe 产出一个词一条向量。文本向量句子 / 段落向量整句话、整篇文档压缩成一条向量BOW、BERT、BGE、E5 产出一段文本一条向量。二、全方位对比表表格对比项词向量 (Word2Vec)文本向量 (BGE/E5/BERT)映射对象单个词语句子、段落、整篇文本生成方式用上下文预测训练一词一个静态向量整段文本全局编码融合全句上下文向量数量N 个词→N 条向量N 段文本→N 条向量一词多义静态固定向量无法区分随上下文动态生成同词不同句向量不同语义范围只承载词语本身语义承载整段主旨、逻辑、隐含语义文本拼接方法求和 / 平均得到文本表示效果差模型直接输出整段向量原生最优典型应用近义词查询、词语类比、分词特征RAG 知识库检索、段落匹配、文档聚类、文本分类三、通俗举例词表苹果、香蕉、书桌单个词独立向量苹果、香蕉相似度高。文本我爱吃苹果和香蕉词向量方案苹果香蕉爱吃三个向量相加求平均粗暴合成文本向量丢失语序文本向量方案BGE 直接输出唯一一条向量完整保留 “爱吃两种水果” 整句含义。四、两种由词得到文本向量的方案优劣缺点丢失语序狗咬人 / 人咬狗平均向量一致无全局语义无法区分整句意图早期低成本临时方案现已淘汰。方案 2预训练模型直接生成文本向量BGE/E5模型从字词→句法→全文语义逐层编码原生段落向量是现在 RAG、语义检索标准。五、结合全技术演进OneHot/BoW离散稀疏编码无真正语义向量Word2Vec词粒度稠密向量解决词语相似度不能直接表示文本BERT可输出词向量句向量动态解决一词多义BGE/E5专门优化段落文本向量主打长文本语义匹配、知识库检索。六、代码直观示例python运行# 1.Word2Vec词向量 from gensim.models import Word2Vec sent [[我,爱吃,苹果],[我,爱吃,香蕉]] w2v Word2Vec(sent,sg1,vector_size10,window2,min_count1) # 单个词向量 v_apple w2v.wv[苹果] v_banana w2v.wv[香蕉] # 手动拼接文本向量(平均) text_vec (v_apple v_banana)/2 # 2.BGE直接文本向量伪代码 # from sentence_transformers import SentenceTransformer # model SentenceTransformer(bge-small-zh) # text_vec model.encode(我爱吃苹果和香蕉) #直接输出整段向量七、一句话总结词向量是词语的数字化身擅长词语级语义文本向量是段落的数字化身擅长整句意图与全文匹配。