多模态检索技术:分阶段训练与语义ID优化实践
1. 多模态检索技术的演进与挑战在当今的互联网应用中多模态检索技术正变得越来越重要。以美团外卖为例用户在搜索麻辣香锅时不仅会关注菜品名称和描述还会被诱人的食物图片所吸引。这种融合文本、图像等多种数据类型的检索场景就是典型的多模态检索需求。传统检索系统主要依赖文本匹配但随着用户需求日益多样化仅靠文本特征已无法满足精准检索的要求。多模态检索模型通过整合文本、图像等多种模态的特征能够提供更丰富、更精确的搜索结果。这类模型通常采用双塔架构其中查询塔处理用户查询文本而物品塔则整合多种模态的特征如菜品描述和图片。然而在实际应用中我们发现多模态检索面临两个主要挑战模态失衡问题在联合训练过程中某些模态通常是文本会主导优化过程导致其他模态如图像的特征被忽视。我们的实验表明即使将图像嵌入替换为随机向量模型性能也几乎不变这说明模型确实没有有效利用图像特征。训练速度不一致不同模态的学习难度不同导致它们的损失收敛速度不一致。例如图像特征的损失收敛通常比文本特征慢得多。这种不一致会导致所谓的一阶段问题——模型过度拟合容易学习的特征而难以学习的特征则得不到充分优化。2. 分阶段预训练策略设计2.1 传统联合训练的局限性主流多模态检索模型通常采用联合优化策略同时优化多个对比学习目标包括模态内对齐如图像到文本模态间对齐如查询到图像、查询到文本整体对齐查询到物品虽然这种方法理论上可以充分利用所有模态信息但我们的实验表明联合优化会导致模型过度关注某些模态通常是文本而忽视其他模态。具体表现为查询到物品的损失变化与查询到文本高度相似其他模态的损失变化相关性很弱图像特征的损失收敛速度明显慢于文本2.2 分阶段训练方案针对这些问题我们提出了分阶段预训练策略Staged Pretraining将训练过程分为四个渐进阶段文本特征优化阶段专注对齐查询和文本特征使用查询到文本的对比学习损失目标建立强大的文本语义理解基础模态内对齐阶段聚焦物品塔内的多模态融合使用图像到文本的对比学习损失目标使模型学会关联同一物品的不同模态表示跨模态对齐阶段加强查询塔对视觉特征的理解使用查询到图像的对比学习损失目标让文本查询能够有效匹配视觉内容端到端优化阶段整合所有模态进行最终微调使用查询到物品的对比学习损失目标最大化整体检索性能这种渐进式的训练策略有三大优势每个阶段专注于特定目标避免模态间干扰从简单到复杂逐步构建模型能力有效缓解训练速度不一致导致的一阶段问题2.3 实现细节与参数设置在具体实现上我们采用以下配置文本编码器Qwen3-0.6B模型图像编码器cnCLIP-ViT-h-14模型投影层三层MLP1024→768→512→256批量大小预训练阶段8微调阶段16温度系数τ0.05对比学习硬件8块NVIDIA A10080GB实践提示分阶段训练时建议先使用较小学习率如5e-6进行前几个阶段的训练在最终端到端阶段再适当增大学习率如1e-5。这种低开高走的学习率策略能有效稳定训练过程。3. 语义ID技术与高效部署3.1 语义ID的生成原理虽然多模态嵌入能提供丰富的语义信息但其高维度特性通常1024维或更高给线上部署带来巨大压力。为此我们引入残差量化变分自编码器RQ-VAE技术将高维嵌入压缩为紧凑的语义IDSID。RQ-VAE的工作原理如下构建多层码本codebook每层包含固定数量的嵌入向量对原始高维嵌入进行残差量化第一层码本找到最接近的向量计算残差原始向量-选中向量将残差传递给下一层继续量化最终得到一组离散的码本索引序列即语义ID我们为三种模态分别构建独立的RQ-VAE文本SIDtext(text) [SIDs1_text, SIDs2_text, SIDs3_text]图像SIDimage(image) [SIDs1_image, SIDs2_image, SIDs3_image]融合SIDitem(item) [SIDs1_item, SIDs2_item, SIDs3_item]最终的SID序列是这三部分的拼接 [text(text), image(image), item(item)]3.2 语义ID的优势与传统高维嵌入相比语义ID具有以下优势存储高效128维浮点向量→数个字节的离散ID计算高效ANN搜索速度提升3-5倍适应性强对数据分布变化更鲁棒可解释性离散ID更容易分析和调试在美团外卖场景中使用语义ID后存储需求降低87%推理延迟减少65%索引更新频率从每小时降至每天3.3 线上部署架构在实际部署中我们采用以下架构离线部分定期每日生成所有物品的SID构建FAISS索引同步到线上服务集群线上部分实时接收用户查询生成查询向量FAISS近似最近邻搜索返回Top-K结果避坑指南部署时要注意SID生成频率与索引更新的协调。我们建议采用双缓冲机制——维护新旧两套索引在后台完成新索引构建后再原子切换避免服务中断。4. 语义ID的理解与优化4.1 模型对SID的适应挑战虽然SID技术解决了存储和计算问题但作为新引入的特征LLM对其缺乏先验理解。这表现在SID不在原始词表中模型无法直接处理SID与文本特征的关联需要显式学习多模态SID之间的关系复杂4.2 三项优化任务设计针对这些问题我们设计了三种训练任务文档到文档IDDoc2docid训练扩展LLM词表加入所有SID给定文本特征预测对应的SID损失函数 Ldoc2docid E(text,)[CrossEntropy(LLM(text), )]因果预测微调基础版仅使用文本特征预测查询词 Lcausal E(text,)[−∑log(1|text,1:)]SID增强版加入SID作为上下文 Lcausal_SIDs E(text,,)[−∑log(1|text,,1:)]下游检索任务微调使用对比学习优化查询到物品匹配结合随机负样本和困难负样本困难负样本相关但未被点击的物品4.3 训练策略与技巧在实际训练中我们采用分阶段策略先进行Doc2docid训练建立SID基础理解然后交替进行因果预测和检索任务微调逐步增加困难负样本的比例关键技巧包括渐进式困难样本挖掘从易到难调整负样本难度温度系数退火逐步降低对比学习温度梯度裁剪控制SID相关任务的梯度幅度5. 效果评估与案例分析5.1 离线实验设计我们使用美团外卖真实数据构建评估集训练集3200万样本1周数据评估集后续2天数据候选池580万物品200万用户点击划分MT-热门城市北京、上海等MT-其他城市评估指标RecallK (K5,10,20)NDCGK (K5,10,20)5.2 主要结果对比与主流基线方法相比我们的方案SMGR展现出显著优势在全部查询上R5提升3.80%58.19% vs 56.01%N5提升5.10%41.65% vs 39.58%R20提升2.17%84.10% vs 82.42%N20提升2.09%48.16% vs 47.17%在高频查询上更具挑战性R5提升6.70%51.12% vs 47.91%N5提升6.40%35.09% vs 32.98%R20提升2.47%79.50% vs 77.58%N20提升2.89%42.39% vs 41.20%5.3 训练策略分析分阶段训练的有效性验证联合训练 vs 随机图像性能几乎相同分阶段训练显著优于联合训练R5提升1.09%N5提升1.75%训练顺序影响先文本后图像的顺序效果最佳Order6我们的方案表现最优5.4 线上A/B测试结果在美团平台进行的线上测试显示收入提升1.12%点击率提升1.02%推理延迟降低65%存储需求减少87%6. 典型场景案例分析6.1 案例一多模态互补查询健康轻食午餐传统文本模型主要匹配轻食关键词可能返回高热量食品我们的模型文本SID捕捉健康、低卡等概念图像SID识别沙拉、粗粮等视觉特征融合SID确保结果既符合描述又视觉健康6.2 案例二模糊查询处理查询那个红色的饮料传统模型难以理解指代我们的模型图像SID识别红色、瓶装等特征文本SID关联饮料、果汁等概念成功返回可口可乐、果粒橙等结果6.3 案例三长尾需求满足查询无麸质蛋糕传统模型缺乏专门优化结果不佳我们的模型通过分阶段训练图像SID能识别特殊烘焙品文本SID准确理解无麸质要求成功返回小众但符合要求的结果在实际部署中这种多模态互补特性使我们的模型能更好地满足各种复杂查询需求特别是那些文本描述不完整或不准确的场景。