LLM 多模态：图文理解与生成

张

张建站

2026/5/14 14:13:19

10分钟阅读

LLM 多模态图文理解与生成1. 技术分析1.1 多模态LLM概述多模态LLM融合多种数据类型多模态能力文本→图像: 文本生成图像图像→文本: 图像描述图文→文本: 图文理解文本→图文: 多模态生成1.2 多模态架构架构特点代表模型Flamingo冻结LLM视觉编码器FlamingoBLIP-2Q-Former桥接BLIP-2GPT-4V统一架构GPT-4VLlava开源多模态Llava1.3 多模态任务多模态任务图像描述: Image Captioning 视觉问答: VQA 图文生成: Visual Storytelling 图像编辑: Image Editing2. 核心功能实现2.1 视觉编码器import torch import torch.nn as nn from transformers import CLIPVisionModel, CLIPImageProcessor class VisionEncoder(nn.Module): def __init__(self, model_nameopenai/clip-vit-large-patch14): super().__init__() self.encoder CLIPVisionModel.from_pretrained(model_name) self.processor CLIPImageProcessor.from_pretrained(model_name) def forward(self, images): inputs self.processor(images, return_tensorspt) outputs self.encoder(**inputs) return outputs.last_hidden_state class QFormer(nn.Module): def __init__(self, num_query_tokens32, hidden_size768): super().__init__() self.query_tokens nn.Parameter(torch.randn(1, num_query_tokens, hidden_size)) self.transformer nn.Transformer( d_modelhidden_size, nhead8, num_encoder_layers6, num_decoder_layers6 ) def forward(self, visual_features): batch_size visual_features.size(0) query_tokens self.query_tokens.expand(batch_size, -1, -1) memory visual_features.permute(1, 0, 2) tgt query_tokens.permute(1, 0, 2) output self.transformer(tgt, memory) return output.permute(1, 0, 2)2.2 多模态融合class MultimodalFusion(nn.Module): def __init__(self, text_dim768, visual_dim768, hidden_dim768): super().__init__() self.text_proj nn.Linear(text_dim, hidden_dim) self.visual_proj nn.Linear(visual_dim, hidden_dim) self.fusion nn.Linear(hidden_dim * 2, hidden_dim) def forward(self, text_embeddings, visual_embeddings): text_proj self.text_proj(text_embeddings) visual_proj self.visual_proj(visual_embeddings) concatenated torch.cat([text_proj, visual_proj], dim-1) fused self.fusion(concatenated) return fused class MultimodalLLM(nn.Module): def __init__(self, llm, vision_encoder, qformer): super().__init__() self.llm llm self.vision_encoder vision_encoder self.qformer qformer self.vision_proj nn.Linear(768, llm.config.hidden_size) def forward(self, images, text_input_ids): visual_features self.vision_encoder(images) query_output self.qformer(visual_features) visual_embeddings self.vision_proj(query_output) text_embeddings self.llm.get_input_embeddings()(text_input_ids) combined_embeddings torch.cat([visual_embeddings, text_embeddings], dim1) outputs self.llm(inputs_embedscombined_embeddings) return outputs2.3 多模态生成class MultimodalGenerator: def __init__(self, model, tokenizer, image_processor): self.model model self.tokenizer tokenizer self.image_processor image_processor def generate(self, images, prompt, max_length512): inputs self.image_processor(images, return_tensorspt) prompt_ids self.tokenizer.encode(prompt, return_tensorspt) with torch.no_grad(): outputs self.model.generate( image_inputsinputs, text_inputsprompt_ids, max_lengthmax_length ) return self.tokenizer.decode(outputs[0], skip_special_tokensTrue) class VisualQuestionAnswering: def __init__(self, model, tokenizer, image_processor): self.model model self.tokenizer tokenizer self.image_processor image_processor def answer(self, image, question): inputs self.image_processor(image, return_tensorspt) prompt f图片内容[图片]\n问题{question}\n回答 prompt_ids self.tokenizer.encode(prompt, return_tensorspt) with torch.no_grad(): outputs self.model.generate( image_inputsinputs, text_inputsprompt_ids, max_length256 ) return self.tokenizer.decode(outputs[0], skip_special_tokensTrue)3. 性能对比3.1 多模态模型对比模型视觉能力语言能力开源性GPT-4V很高很高否Flamingo高高否BLIP-2高中是Llava中高中是3.2 多模态任务对比任务GPT-4VFlamingoLlavaVQA85%78%72%Image Captioning90%85%78%Visual Reasoning82%75%68%3.3 多模态能力矩阵能力描述重要性物体识别识别图像中的物体高场景理解理解图像场景高文字识别OCR能力中空间推理理解空间关系中4. 最佳实践4.1 多模态模型选择def select_multimodal_model(task_type, constraints): if constraints.get(open_source, False): if task_type vqa: return Llava elif task_type captioning: return BLIP-2 else: return GPT-4V class MultimodalModelSelector: staticmethod def get_model(task_type, config): models { vqa: { open: llava-13b, closed: gpt-4v }, captioning: { open: blip-2, closed: gpt-4v } } source open if config.get(open_source, False) else closed return models[task_type][source]4.2 多模态应用开发class MultimodalApplication: def __init__(self, config): self.config config self.model self._load_model() def _load_model(self): model_name MultimodalModelSelector.get_model( self.config[task_type], self.config ) if model_name llava-13b: from transformers import LlavaForConditionalGeneration, LlavaProcessor return LlavaForConditionalGeneration.from_pretrained(model_name) else: raise ValueError(fUnknown model: {model_name}) def run(self, inputs): if self.config[task_type] vqa: return self._run_vqa(inputs) elif self.config[task_type] captioning: return self._run_captioning(inputs) def _run_vqa(self, inputs): image inputs[image] question inputs[question] vqa VisualQuestionAnswering(self.model, self.tokenizer, self.image_processor) return vqa.answer(image, question) def _run_captioning(self, inputs): image inputs[image] generator MultimodalGenerator(self.model, self.tokenizer, self.image_processor) return generator.generate(image, 描述这张图片)5. 总结多模态LLM是下一代AI的重要方向视觉编码将图像转为向量模态融合结合文本和视觉信息多任务能力支持多种多模态任务开源选择Llava和BLIP-2是优秀的开源模型对比数据如下GPT-4V 在所有多模态任务中领先Llava 是最佳开源选择Q-Former 是有效的模态桥接方法推荐根据任务需求选择模型

从CTFHUB SSRF文件上传题，看如何用Burp Suite抓包并构造Gopher攻击流量

从Burp Suite到Gopher协议：实战解析SSRF文件上传攻击链在CTF竞赛和渗透测试中，服务器端请求伪造（SSRF）漏洞常被用来突破网络边界，而Gopher协议则因其灵活的数据包构造能力成为攻击者的利器。本文将带您深入理解如何利…...

2026/5/14 14:11:05 阅读更多 →

3个必装插件让你的MPC-HC播放器变身专业影音中心

3个必装插件让你的MPC-HC播放器变身专业影音中心【免费下载链接】mpc-hc MPC-HCs main repository. For support use our Trac: https://trac.mpc-hc.org/ 项目地址: https://gitcode.com/gh_mirrors/mpc/mpc-hc 还在为播放器卡顿、画质模糊、字幕不同步而烦恼吗&#…...

2026/5/14 14:07:15 阅读更多 →